Das Werkzeug "Forest-basierte Klassifizierung und Regression" modelliert und generiert Vorhersagen mithilfe einer Adaption des "Random Forest"-Algorithmus, einer Methode für überwachtes maschinelles Lernen von Leo Breiman. Vorhersagen können sowohl für Kategorievariablen (Klassifizierung) als auch für kontinuierliche Variablen (Regression) getroffen werden. Erklärende Variablen können als Felder in der Attributtabelle der Trainings-Features vorliegen. Zusätzlich zur Validierung der Modell-Performance auf Grundlage der Trainingsdaten sind Vorhersagen für Features möglich.
Workflow-Diagramm
Durchführen von Analysen mit GeoAnalytics Tools
Mit GeoAnalytics Tools durchgeführte Analysen werden mittels verteilter Verarbeitung auf mehreren ArcGIS GeoAnalytics Server-Computern und Kernen durchgeführt. GeoAnalytics Tools und Standard-Feature-Analysewerkzeuge in ArcGIS Enterprise verfügen über verschiedene Parameter und Funktionen. Weitere Informationen zu diesen Unterschieden finden Sie unter Unterschiede zwischen Feature-Analysewerkzeugen.
Beispiele
- Vorhandene Daten über das Vorkommen von Seegras sowie eine Reihe von erklärenden Umgebungsvariablen können neben den Entfernungen zu flussaufwärts liegenden Fabriken und großen Häfen Vorhersagen über das künftige Vorkommen von Seegras auf der Grundlage von Prognosen für die gleichen erklärenden Umgebungsvariablen ermöglichen.
- Wohnwerte können anhand der Preise von Häusern, die im laufenden Jahr verkauft wurden, vorhergesagt werden. Der Verkaufspreis der verkauften Häuser kann zusammen mit Informationen über die Anzahl der Schlafzimmer, die Entfernung zu den Schulen, die Nähe zu den Hauptverkehrsstraßen, das Durchschnittseinkommen und die Kriminalitätsrate verwendet werden, um die Verkaufspreise ähnlicher Häuser vorherzusagen.
- Anhand von Informationen über die Bleiwerte im Blut von Kindern und die Steuerflurstücks-ID der jeweiligen Häuser kann, in Verbindung mit Attributen auf Flurstückebene wie dem Alter des Hauses, offiziellen Bevölkerungsdaten wie Einkommens- und Bildungsniveau und nationalen Datasets, die die toxische Freisetzung von Blei und Bleiverbindungen wiedergeben, das Risiko einer Bleiexposition für Parzellen ohne Daten zu Blutbleiwerten vorhergesagt werden. Diese Risikovorhersagen könnten für Maßnahmen und Aufklärungsprogramme in dem Gebiet genutzt werden.
Verwendungshinweise
Mit diesem Werkzeug werden Hunderte von Strukturen erstellt, die als Sammlung von Entscheidungsstrukturen bezeichnet werden, um ein Modell für die Vorhersage zu generieren. Jede Entscheidungsstruktur wird mit zufällig generierten Teilen der ursprünglichen (Trainings-)Daten erstellt. Jede Struktur generiert eine eigene Vorhersage und hat eine Stimme bei Ergebnisabstimmung. Bei dem Forest-Modell werden die Stimmen aller Entscheidungsstrukturen berücksichtigt, um das Ergebnis einer unbekannten Stichprobe vorherzusagen oder zu klassifizieren. Dies ist wichtig, da bei einzelnen Strukturen Probleme durch eine Überanpassung eines Modells entstehen können; die Kombination mehrerer Strukturen in einem Forest löst jedoch dieses Problem der Überanpassung.
Dieses Werkzeug kann in zwei verschiedenen Operationsmodi verwendet werden. Mit der Option Ein Modell trainieren, um die Modell-Performance zu bewerten kann die Performance verschiedener Modelle beim Erkunden unterschiedlicher erklärender Variablen und Werkzeugeinstellungen ausgewertet werden. Wenn Sie ein gutes Modell gefunden haben, können Sie die Option Ein Modell anpassen und Werte vorhersagen verwenden. Dieses Werkzeug ist datenabhängig und eignet sich am besten für große Datasets. Für ein optimales Ergebnis sollte es mit mindestens mehreren hundert Features trainiert werden. Für kleine Datasets ist dieses Werkzeug nicht geeignet.
Die Eingabe-Trainings-Features können Tabellen, Punkte, Linien oder Flächen-Features sein. Dieses Werkzeug funktioniert nicht mit Multipart-Daten.
Features mit Vorhersage- oder erklärenden Feldern, die mindestens einen NULL-Wert oder eine leere Zeichenfolge aufweisen, werden aus der Ausgabe ausgeschlossen. Sie können die Werte bei Bedarf über die Option Feld berechnen ändern.
Von diesem Werkzeug werden verschiedene Ausgaben erzeugt. Die erzeugten Ausgaben variieren je nach Operationsmodus:
- Die Option Ein Modell trainieren, um die Modell-Performance zu bewerten führt zu folgenden Ausgaben:
- Trainierte Ausgabe-Features: Enthält alle im erstellten Modell verwendeten Eingabe-Training-Features und erklärenden Variablen. Auch die Vorhersagen für alle Features, die zum Trainieren des Modells verwendet wurden, sind darin enthalten. Dies kann bei der Bewertung der Performance des erstellten Modells hilfreich sein.
- Zusammenfassungsmeldungen des Werkzeugs: Meldungen, die Ihnen dabei helfen, die Performance des erstellten Modells besser zu verstehen. Die Meldungen enthalten Informationen zu den Modelleigenschaften, Out-of-Bag-Fehlern, der Variablenbedeutung und Validierungsdiagnosen. Klicken Sie zum Aufrufen der Ergebnisübersicht im resultierenden Layer in Map Viewer auf Ergebnisse anzeigen . Die zusammenfassenden Informationen werden ebenfalls zur Elementdetailseite hinzugefügt.
- Die Option Ein Modell anpassen und Werte vorhersagen führt zu den folgenden drei Ausgaben:
- Trainierte Ausgabe-Features: Enthält alle im erstellten Modell verwendeten Eingabe-Training-Features und erklärenden Variablen. Auch die Vorhersagen für alle Features, die zum Trainieren des Modells verwendet wurden, sind darin enthalten. Dies kann bei der Bewertung der Performance des erstellten Modells hilfreich sein.
- Vorhergesagte Ausgabe-Features: Ein Layer mit vorhergesagten Ergebnissen. Vorhersagen werden mit dem Modell, das aus dem Training-Layer generiert wurde, auf den vorherzusagenden Layer angewendet (Wählen Sie einen Layer aus, für den Werte vorhergesagt werden sollen).
- Zusammenfassungsmeldungen des Werkzeugs: Meldungen, die Ihnen dabei helfen, die Performance des erstellten Modells besser zu verstehen. Die Meldungen enthalten Informationen zu den Modelleigenschaften, Out-of-Bag-Fehlern, der Variablenbedeutung und Validierungsdiagnosen. Klicken Sie zum Aufrufen der Ergebnisübersicht im resultierenden Layer in Map Viewer auf Ergebnisse anzeigen . Die zusammenfassenden Informationen werden ebenfalls zur Elementdetailseite hinzugefügt.
Mit dem Parameter Ausgabetabelle zur Variablenbedeutung können Sie eine Tabelle erstellen, um ein Diagramm der Variablenbedeutung für die Auswertung anzuzeigen. Die höchsten 20 Werte für die Variablenbedeutung werden auch im Meldungsfenster angegeben. Auf das Diagramm kann direkt unterhalb des Layers im Bereich Inhalt zugegriffen werden.
Erklärende Variablen können aus Feldern stammen und sollten eine Reihe von Werten enthalten. Wenn es sich bei der erklärenden Variablen um eine Kategorievariable handelt, muss das Kontrollkästchen Kategorisch aktiviert werden (Variablen des Typs "String" werden automatisch aktiviert). Erklärende Kategorievariablen dürfen höchstens 60 Einzelwerte enthalten, eine geringere Anzahl von Kategorien führt jedoch zu einer besseren Performance des Modells. Je mehr Kategorien eine Variable bei einer bestimmten Datengröße enthält, desto eher dominiert sie das Modell, sodass die Vorhersageergebnisse an Effektivität verlieren.
Beim Abgleich von erklärenden Variablen müssen die Felder Training und Prediction denselben Typ aufweisen (z. B. muss ein Double-Feld in Training mit einem Double-Feld in Prediction abgeglichen werden).
Forest-basierte Modelle extrapolieren nicht, mit ihnen kann nur ein Wert klassifiziert oder vorhergesagt werden, für den das Modell trainiert wurde. Verwenden Sie zum Trainieren des Modells Training-Features und erklärende Variablen innerhalb des Bereichs Ihrer Ziel-Features und -Variablen. Das Werkzeug kann nicht erfolgreich ausgeführt werden, wenn die erklärenden Variablen für die Vorhersage Kategorien enthalten, die in den Trainings-Features nicht vorhanden waren.
Der Standardwert für den Parameter Anzahl der Strukturen ist 100. Die Erhöhung der Anzahl von Strukturen im Forest-Modell führt zu einer genaueren Modellvorhersage, für die Berechnung des Modells wird jedoch mehr Zeit benötigt.
Weitere Informationen zur Funktionsweise dieses Werkzeugs und zum ArcGIS Pro-Geoverarbeitungswerkzeug, auf dem die Implementierung basiert, finden Sie unter Funktionsweise des Werkzeugs "Forest-basierte Klassifizierung und Regression".
Beschränkungen
Die GeoAnalytics-Implementierung des Werkzeugs "Forest-basierte Klassifizierung und Regression" unterliegt folgenden Beschränkungen:
- Als Eingabe werden Feature-Datasets (Punkte, Linien, Polygone und Tabellen) unterstützt. Raster werden nicht unterstützt.
- Unterstützt werden ein einzelner Layer für das Training und ein einzelner Layer für die Vorhersage. Wenn Sie mehrere Datasets miteinander kombinieren möchten, verwenden Sie zum Generieren von Eingabedaten die Werkzeuge Gitter mit mehreren Variablen erstellen und Über Gitter mit mehreren Variablen anreichern.
Beispiel für ArcGIS API for Python
Das Werkzeug "Forest-basierte Klassifizierung und Regression" ist über ArcGIS API for Python verfügbar.
In diesem Beispiel wird ein Modell erstellt und der Verkauf von Speiseeis vorhergesagt.
# Import the required ArcGIS API for Python modules
import arcgis
from arcgis.gis import GIS
# Connect to your ArcGIS Enterprise portal and confirm that GeoAnalytics is supported
portal = GIS("https://myportal.domain.com/portal", "gis_publisher", "my_password", verify_cert=False)
if not portal.geoanalytics.is_supported():
print("Quitting, GeoAnalytics is not supported")
exit(1)
# Find the big data file share dataset you'll use for analysis
search_result = portal.content.search("", "Big Data File Share")
# Look through the search results for a big data file share with the matching name
bdfs_search = next(x for x in search_result if x.title == "bigDataFileShares_SaleData")
# Look through the big data file share for ice cream sales data
icecream_sales = next(x for x in bdfs_search.layers if x.properties.name == "IceCreamSales")
# Run the Forest-based Classification and Regression tool
forest_model = arcgis.geoanalytics.analyze_patterns.forest(prediction_type = "train",
input_layer = icecream_sales,
var_prediction = {"fieldName":"Amount", "categorical":true},
var_explanatory = [{"fieldName":"Weekend", "categorical":true},
{"fieldName":"Temperature", "categorical":false},
{"fieldName":"Holiday", "categorical":true},
{"fieldName":"DistanceToBeach", "categorical":false}],
sample_size = 50,
output_name = "ice_cream_prediction")
Ähnliche Werkzeuge
Mit dem ArcGIS GeoAnalytics Server-Werkzeug "Forest-basierte Klassifizierung und Regression" können Sie Vorhersagen generieren und Modelle erstellen. Die Grundlage bildet eine Adaption des "Random Forest"-Algorithmus von Leo Breiman. Andere Werkzeuge können bei ähnlichen, aber leicht abweichenden Problemstellungen hilfreich sein.
Map Viewer-Analysewerkzeuge
Mit dem ArcGIS GeoAnalytics Server-Werkzeug Generalisierte lineare Regression können Sie Modelle und Vorhersagen erstellen.
ArcGIS Desktop-Analysewerkzeuge
Um dieses Werkzeug in ArcGIS Pro auszuführen, muss auf Ihrem aktiven Portal Enterprise 10.7 oder höher ausgeführt werden. Sie müssen sich mit einem Konto anmelden, dem Berechtigungen zum Durchführen von GeoAnalytics-Feature-Analysen zugewiesen sind.
Ähnliche Regressionsoperationen können Sie in ArcGIS Pro mit dem Geoverarbeitungswerkzeug Forest-basierte Klassifizierung und Regression durchführen, das Teil der Toolbox "Räumliche Statistiken" ist.
Führen Sie eine generalisierte lineare Regression (GLR) mit dem Geoverarbeitungswerkzeug Generalisierte lineare Regression (enthalten in der Toolbox "Räumliche Statistiken") durch, um Vorhersagen zu generieren oder eine abhängige Variable im Hinblick auf ihre Beziehung zu einem Satz erklärender Variablen in ArcGIS Pro zu modellieren.
Führen Sie eine geographisch gewichtete Regression (GWR) in ArcGIS Pro mit dem Geoverarbeitungswerkzeug Geographisch gewichtete Regression durch, das Teil der Toolbox "Räumliche Statistiken" ist.