Skip To Content

Generalisierte lineare Regression

Generalisierte lineare RegressionFührt eine generalisierte lineare Regression (GLR) aus, um Vorhersagen zu generieren oder eine abhängige Variable in Hinsicht auf ihre Beziehung zu einem Satz erklärender Variablen zu modellieren. Dieses Werkzeug kann für kontinuierliche (Gauß) und binäre (logistische) Modelle sowie für Anzahlmodelle (Poisson) verwendet werden.

Workflow-Diagramm

Generalisierte lineare Regression – Workflow-Diagramm

Durchführen von Analysen mit GeoAnalytics-Werkzeuge

Mit GeoAnalytics-Werkzeuge durchgeführte Analysen werden mittels verteilter Verarbeitung auf mehreren ArcGIS GeoAnalytics Server-Computern und Kernen durchgeführt. GeoAnalytics-Werkzeuge und Standard-Feature-Analysewerkzeuge in ArcGIS Enterprise verfügen über verschiedene Parameter und Funktionen. Weitere Informationen zu diesen Unterschieden finden Sie unter Unterschiede zwischen Feature-Analysewerkzeugen.

Beispiele

  • Sie sind GIS-Analyst in einem Versorgungsunternehmen und haben ein Dataset mit Daten zu Stromausfällen und Extremwetterereignissen. Sie reichern Ihre Daten zu den Stromausfällen mithilfe der Werkzeuge Gitter mit mehreren Variablen erstellen und Über Gitter mit mehreren Variablen anreichern an, um ein Dataset zu erzeugen, das Wetterinformationen zu den Stromausfallereignissen liefert. Mit der generalisierten linearen Regression können Sie ermitteln, welches Wetterereignis zu den Stromausfällen geführt hat. Mit dieser Information können Sie Stromausfälle vorhersagen und Ihre Ressourcen entsprechend planen.
  • Wenn Sie als Analyst in einer Großstadt tätig sind, verfügen Sie neben demografischen Daten über vergangene Notrufdatensätze. Beantworten Sie folgende Fragen: Mit welchen Variablen lässt sich das Notrufaufkommen effektiv vorhersagen? Wie sieht angesichts der Vorhersagen für die Zukunft die erwartete Nachfrage für Notdienste aus?

Verwendungshinweise

Dieses Werkzeug kann in zwei verschiedenen Operationsmodi verwendet werden. Mit der Option Ein Modell anpassen, um die Modell-Performance zu bewerten kann die Performance verschiedener Modelle beim Erkunden unterschiedlicher erklärender Variablen und Werkzeugeinstellungen ausgewertet werden. Wenn Sie ein gutes Modell gefunden haben, können Sie die Option Ein Modell anpassen und Werte vorhersagen verwenden.

Verwenden Sie den Parameter Wählen Sie einen Layer aus, aus dem ein Modell generiert werden soll mit einem Feld, das das zu modellierende Phänomen darstellt (Wählen Sie das zu modellierende Feld aus), und einem oder mehreren Feldern, die die erklärenden Variablen darstellen. Diese Felder müssen numerisch sein und einen Wertebereich aufweisen. Features, in deren abhängiger oder erklärender Variable Werte fehlen, werden aus der Analyse ausgeschlossen. Wenn Sie NULL-Werte verändern möchten, verwenden Sie das Werkzeug Feld berechnen, um zunächst einmal einen neuen Layer mit den aktualisierten Werten zu erstellen.

Das Werkzeug "Generalisierte lineare Regression" erzeugt darüber hinaus Ausgabe-Features und Diagnosen. Ausgabe-Feature-Classes werden automatisch zur Karte hinzugefügt, wobei ein Rendering-Schema auf Modellresiduen angewendet wird. Eine vollständige Erklärung jeder Ausgabe wird nachfolgend bereitgestellt.

Es ist wichtig, das richtige Modell (Kontinuierlich, Binär oder Anzahl) für die Analyse zu verwenden, damit die Regressionsanalyse möglichst genaue Ergebnisse liefert.

Ergebnisse der Modellzusammenfassung und Diagnosen werden in das Meldungsfenster eingegeben, und Diagramme werden unterhalb der Ausgabe-Feature-Class erstellt. Die gemeldeten Diagnosen sind abhängig vom Modelltyp. Es stehen drei Modelltypen zur Auswahl:

  • Verwenden Sie Kontinuierlich (Gauß) als Modelltyp, wenn Ihre abhängige Variable einen großen Wertebereich haben kann, z. B. Temperaturen oder Umsätze. Im Idealfall ist Ihre abhängige Variable normal verteilt.
  • Verwenden Sie Binär (Logistisch) als Modelltyp, wenn Ihre abhängige Variable einen von zwei möglichen Werten annehmen kann, z. B. Erfolg oder Misserfolg, Anwesenheit oder Abwesenheit. Bei dem Feld mit der abhängigen Variable muss es sich um ein numerisches Feld handeln, das nur Einsen und Nullen enthält. Ihre Daten sollten Variationen von Einsen und Nullen aufweisen.

  • Die Verwendung von Anzahl (Poisson) als Modelltyp sollten Sie in Betracht ziehen, wenn Ihre abhängige Variable diskontinuierlich ist und die Anzahl eines bestimmten Ereignisses darstellt, z. B. die Anzahl von Straftaten. Anzahlmodelle können auch verwendet werden, wenn Ihre abhängige Variable ein Verhältnis darstellt und es sich bei dem Nenner des Verhältnisses um einen Festwert handelt, z. B. Umsatz pro Monat oder die Anzahl der krebskranken Personen pro 10.000 Einwohner. Das Modell Anzahl geht davon aus, dass der Mittelwert und die Abweichung der abhängigen Variablen gleich sind und die Werte Ihrer abhängigen Variablen weder negativ sind noch Dezimalstellen enthalten.

Die Parameter "Abhängige Variable" und "Erklärende Variable" sollten numerische Felder sein, die eine Vielzahl von Werten enthalten. Dieses Werkzeug kann keine Berechnung vornehmen, wenn die Variablen alle dieselben Werte aufweisen (wenn beispielsweise alle Werte für ein Feld 9,0 betragen).

Features mit Vorhersage- oder erklärenden Feldern, die mindestens einen NULL-Wert oder eine leere Zeichenfolge aufweisen, werden aus der Ausgabe ausgeschlossen. Sie können die Werte bei Bedarf über die Option Feld berechnen ändern.

Sie sollten die in Ihren Regressionsresiduen vorhandenen zu hohen und zu niedrigen Vorhersagen visuell überprüfen, um festzustellen, ob sie Aufschluss über potenzielle fehlende Variablen in Ihrem Regressionsmodell geben.

Mit dem erstellten Regressionsmodell können Sie Vorhersagen für andere Features treffen. Für die Erstellung dieser Vorhersagen ist es erforderlich, dass alle Vorhersage-Features (Wählen Sie einen Layer aus, für den Werte vorhergesagt werden sollen) Werte für jede der angegebenen erklärenden Variablen enthalten. Stimmen die Feldnamen aus den Parametern "Eingabe-Features" und "Vorherzusagende Positionen" nicht überein, wird ein Parameter für den Variablenabgleich bereitgestellt. Beim Abgleich der erklärenden Variablen müssen die Felder aus den Eingabe-Features und die Parameter für die vorherzusagenden Positionen den gleichen Typ aufweisen (z. B. müssen Double-Felder mit Double-Feldern abgeglichen werden).

Ausgaben

Das Werkzeug "Generalisierte lineare Regression" erzeugt verschiedene Ausgaben. Eine Zusammenfassung des GLR-Modells ist neben statistischen Zusammenfassungen auf der Elementseite des Portals und als Ressource im Layer verfügbar. Klicken Sie zum Aufrufen der Ergebnisübersicht im resultierenden Layer in Map Viewer auf Ergebnisse anzeigen Ergebnisse anzeigen. Das Werkzeug generiert mindestens einen Ausgabe-Layer und optionale vorhergesagte Ausgabe-Features. Die Ausgabe-Features werden automatisch zu Map Viewer hinzugefügt, wobei ein Hot/Cold-Rendering-Schema auf Modellresiduen angewendet wird. Die generierten Diagnosen hängen vom Modelltyp der Eingabe-Features ab und werden nachfolgend beschrieben.

Kontinuierlich (Gauß)

Interpretieren von Meldungen und Diagnosen

  • AIC: Hierbei handelt es sich um einen Messwert für die Modell-Performance, der verwendet werden kann, um Regressionsmodelle zu vergleichen. Unter Berücksichtigung der Modellkomplexität bietet das Modell mit dem niedrigeren AIC-Wert eine bessere Übereinstimmung mit den beobachteten Daten. AIC ist kein absoluter Messwert für die Qualität der Übereinstimmung, ist aber hilfreich für das Vergleichen von Modellen mit unterschiedlichen erklärenden Variablen, solange sie die gleiche abhängige Variable betreffen. Wenn sich die AIC-Werte für zwei Modelle um mehr als 3 unterscheiden, gilt das Modell mit dem niedrigeren AIC-Wert als genauer.
  • AICc: AICc wendet bei kleineren Stichproben eine Verzerrungskorrektur auf AIC-Werte an. Der AICc-Wert nähert sich mit zunehmender Anzahl der Features in der Eingabe dem AIC-Wert an. Siehe AIC oben.
  • Multiple R-Squared: Der R-Squared-Wert ist ein Messwert für die Qualität der Übereinstimmung. Der Wert variiert von 0.0 bis 1.0, wobei höhere Werte vorzuziehen sind. Er kann als Anteil der abhängigen Variablenvarianz durch das Regressionsmodell interpretiert werden. Der Nenner für die Berechnung von R-Squared ist die Summe von abhängigen Variablenwerten im Quadrat. Durch Hinzufügen einer zusätzlichen erklärenden Variable zum Modell wird nicht der Nenner, sondern der Zähler geändert; dadurch entsteht der Eindruck, dass die Modelleignung verbessert wird, was aber möglicherweise nicht der Fall ist. Siehe Adjusted R-Squared unten.
  • Adjusted R-Squared: Aufgrund des oben beschriebenen Problems mit dem R-Squared-Wert werden durch Berechnungen des angepassten R-Squared-Wertes der Zähler und der Nenner nach ihren Freiheitsgraden normalisiert. Dadurch wird die Anzahl der Variablen in einem Modell ausgeglichen, und folglich ist der Adjusted R-Squared-Wert fast immer kleiner als der R-Squared-Wert. Indem Sie diese Anpassung vornehmen, geht jedoch die Interpretation des Werts als Anteil der erläuterten Varianz verloren. Bei der Geographisch gewichteten Regression (GWR) ist die effektive Anzahl von Freiheitsgraden eine Funktion der verwendeten Nachbarschaft, sodass die Anpassung im Vergleich zu einem globalen Modell wie der GLR möglicherweise stark ausgeprägt ist. Aus diesem Grund wird AICc zum Vergleichen von Modellen vorgezogen.

Binär (Logistisch)

Interpretieren von Meldungen und Diagnosen

  • AIC: Hierbei handelt es sich um einen Messwert für die Modell-Performance, der verwendet werden kann, um Regressionsmodelle zu vergleichen. Unter Berücksichtigung der Modellkomplexität bietet das Modell mit dem niedrigeren AIC-Wert eine bessere Übereinstimmung mit den beobachteten Daten. AIC ist kein absoluter Messwert für die Qualität der Übereinstimmung, ist aber hilfreich für das Vergleichen von Modellen mit unterschiedlichen erklärenden Variablen, solange sie die gleiche abhängige Variable betreffen. Wenn sich die AIC-Werte für zwei Modelle um mehr als 3 unterscheiden, gilt das Modell mit dem niedrigeren AIC-Wert als genauer.
  • AICc: AICc wendet bei kleineren Stichproben eine Verzerrungskorrektur auf AIC-Werte an. Der AICc-Wert nähert sich mit zunehmender Anzahl der Features in der Eingabe dem AIC-Wert an. Siehe AIC oben.

Anzahl (Poisson)

Interpretieren von Meldungen und Diagnosen

  • AIC: Hierbei handelt es sich um einen Messwert für die Modell-Performance, der verwendet werden kann, um Regressionsmodelle zu vergleichen. Unter Berücksichtigung der Modellkomplexität bietet das Modell mit dem niedrigeren AIC-Wert eine bessere Übereinstimmung mit den beobachteten Daten. AIC ist kein absoluter Messwert für die Qualität der Übereinstimmung, ist aber hilfreich für das Vergleichen von Modellen mit unterschiedlichen erklärenden Variablen, solange sie die gleiche abhängige Variable betreffen. Wenn sich die AIC-Werte für zwei Modelle um mehr als 3 unterscheiden, gilt das Modell mit dem niedrigeren AIC-Wert als genauer.
  • AICc: AICc wendet bei kleineren Stichproben eine Verzerrungskorrektur auf AIC-Werte an. Der AICc-Wert nähert sich mit zunehmender Anzahl der Features in der Eingabe dem AIC-Wert an. Siehe AIC oben.

Beschränkungen

Die GeoAnalytics-Implementierung des Werkzeugs "Generalisierte lineare Regression" unterliegt folgenden Beschränkungen:

  • Es handelt sich um ein globales Regressionsmodell, in dem die räumliche Verteilung der Daten unberücksichtigt bleibt.
  • Bei der Analyse wird der Morans I-Test nicht auf die Residuen angewendet.
  • Als Eingabe werden Feature-Datasets (Punkte, Linien, Polygone und Tabellen) unterstützt, jedoch keine Raster.
  • Eine Klassifizierung von Werten ist nicht möglich.

Beispiel für ArcGIS API for Python

Das Werkzeug "Generalisierte lineare Regression" ist über ArcGIS API for Python verfügbar.

In diesem Beispiel wird ein Modell an ein Dataset angepasst und die Vorhersage auf ein anderes angewendet.

# Import the required ArcGIS API for Python modules import arcgis from arcgis.gis import GIS
# Connect to your ArcGIS Enterprise portal and check that GeoAnalytics is supported portal = GIS("https://myportal.domain.com/portal", "gis_publisher", "my_password", verify_cert=False) if not portal.geoanalytics.is_supported():
    print("Quitting, GeoAnalytics is not supported")    exit(1)   
# Search for and list the big data file shares in your portal search_result = portal.content.search("", "Big Data File Share")
# Look through search results for a big data file share with the matching name that you want to model model_layer = next(x for x in search_result if x.title == "bigDataFileShares_Sales_2018")
# Find the dataset you want to predict predict_layer = portal.content.search("Sales_2025", "Feature Layer") predict_layer = layer_result[0].layers[0]
# Run the tool Generalized Linear Regression glr_result = arcgis.geoanalytics.analyze_patterns.glr(input_layer = model_layer, 	features_to_predict = predict_layer,
	var_explanatory = "salestotal, store_count, advertisingcost",	var_dependent = "chicago_crimes_enriched",	regression_family = "Count",	exp_var_matching = [{"predictionLayerField":"store_count", "trainingLayerField": "num_of_stores"}],	output_name = "predicted_customers")
# Visualize the results if you are running Python in a Jupyter Notebook processed_map = portal.map() processed_map.add_layer(glr_result) processed_map

Ähnliche Werkzeuge

Verwenden Sie das Werkzeug "Generalisierte lineare Regression" in ArcGIS GeoAnalytics Server, um Vorhersagen zu generieren oder eine abhängige Variable in Hinsicht auf ihre Beziehung zu einem Satz erklärender Variablen zu modellieren. Andere Werkzeuge können bei ähnlichen, aber leicht abweichenden Problemstellungen hilfreich sein.

Map Viewer-Analysewerkzeuge

Mit dem ArcGIS GeoAnalytics Server-Werkzeug Forest-basierte Klassifizierung und Regression können Sie Modelle und Vorhersagen erstellen.

ArcGIS Desktop-Analysewerkzeuge

Um dieses Werkzeug in ArcGIS Pro auszuführen, muss auf Ihrem aktiven Portal Enterprise 10.7 oder höher ausgeführt werden. Sie müssen sich mit einem Konto anmelden, dem Berechtigungen zum Durchführen von GeoAnalytics-Feature-Analysen zugewiesen sind.

Ähnliche Regressionsoperationen können Sie in ArcGIS Pro mit dem Geoverarbeitungswerkzeug Generalisierte lineare Regression durchführen, das Teil der Toolbox "Räumliche Statistiken" ist.

Erstellen Sie Modelle und Vorhersagen in ArcGIS Pro mit einer Adaption des "Random Forest"-Algorithmus von Leo Breiman, dem Geoverarbeitungswerkzeug Forest-basierte Klassifizierung und Regression, das Teil der Toolbox "Räumliche Statistiken" ist.

Führen Sie eine geographisch gewichtete Regression (GWR) in ArcGIS Pro mit dem Geoverarbeitungswerkzeug Geographisch gewichtete Regression durch, das Teil der Toolbox "Räumliche Statistiken" ist.