Skip To Content

Generalizowana regresja liniowa

Generalizowana regresja liniowaPrzeprowadza generalizowaną regresję liniową (Generalized Linear Regression — GLR) w celu generowania prognoz lub modelowania zmiennej zależnej w kontekście jej relacji z zestawem zmiennych objaśniających. To narzędzie umożliwia dopasowywanie modeli ciągłych (Gaussa), binarnych (logistycznych) i dyskretnych (Poissona).

Diagram procedury wykonywania zadań

Diagram procedury wykonywania zadań generalizowanej regresji liniowej

Analiza z użyciem narzędzi GeoAnalytics Tools

Analiza z użyciem narzędzi GeoAnalytics Tools jest uruchamiana przy zastosowaniu przetwarzania rozproszonego na wielu komputerach i rdzeniach serwera ArcGIS GeoAnalytics Server. Narzędzia GeoAnalytics Tools oraz narzędzia do standardowej analizy obiektowej w witrynie ArcGIS Enterprise mają różne parametry i możliwości. Więcej informacji o tych różnicach można znaleźć w sekcji Różnice między narzędziami analizy obiektowej.

Przykłady

  • Analityk GIS w przedsiębiorstwie użyteczności publicznej dysponuje zestawem danych o przerwach w dostawach prądu i danymi o ekstremalnych warunkach pogodowych. Analityk wzbogaca dane o przerwach w dostawach prądu za pomocą narzędzi Buduj siatkę wielu wartości i Wzbogać na podstawie siatki wielu wartości, aby utworzyć zestaw danych z informacjami o ekstremalnych warunkach pogodowych na potrzeby przerw w dostawach prądu. Analityk używa generalizowanej regresji liniowej, aby określić, co doprowadziło do przerw w dostawach prądu. Teraz, gdy wszystkie te informacje są dostępne, można prognozować przerwy w dostawach prądu i przydzielać zasoby.
  • Analityk zajmujący się dużym miastem dysponuje zestawem historycznych połączeń z numerem alarmowym 112, a także danymi demograficznymi. Musi on odpowiedzieć na następujące pytania: które zmienne efektywnie prognozują ilość połączeń z numerem 112? Jakie jest oczekiwane zapotrzebowanie na zasoby związane z reagowaniem w sytuacjach kryzysowych, biorąc pod uwagę prognozy?

Uwagi dotyczące korzystania

Tego narzędzia można używać w dwóch trybach działania. Opcji Dopasuj model, aby ocenić jego wydajność można użyć do oceny wydajności różnych modeli podczas eksplorowania różnych zmiennych objaśniających i ustawień narzędzia. Po znalezieniu dobrego modelu można użyć opcji Dopasuj model i prognozuj wartości.

Użyj parametru Wybierz warstwę, na podstawie której zostanie wygenerowany model z polem reprezentującym modelowane zjawisko (Wybierz pole do modelowania) i jedno lub większą liczbę pól reprezentujących zmienne objaśniające. Muszą to być pola liczbowe i muszą mieć zakres wartości. Obiekty zawierające brakujące wartości w zmiennych zależnych lub objaśniających zostaną wykluczone z analizy. Jeśli chcesz zmodyfikować wartości puste, najpierw użyj narzędzia Oblicz pole, aby utworzyć nową warstwę zawierającą zaktualizowane wartości.

Ponadto narzędzie Generalizowana regresja liniowa generuje obiekty wynikowe i diagnostykę. Wynikowe warstwy obiektowe są automatycznie dodawane do mapy ze schematem wyświetlania stosowanym do modelowania błędów. Poniżej podano pełne wyjaśnienie poszczególnych wyników.

Ważne jest, aby na potrzeby analizy użyć odpowiedniego modelu (Ciągły, Binarny lub Wyliczeniowy) w celu uzyskania właściwych wyników analizy regresji.

Diagnostyka i wyniki podsumowania modelu są zapisywane w oknie komunikatów, a pod wynikową klasą obiektów zostaną utworzone diagramy. Raportowana diagnostyka zależy od Typu modelu. Dla typu modelu dostępne są trzy opcje:

  • Użyj typu modelu Ciągły (gaussowski), jeśli zmienna zależna może przyjmować wiele wartości, takich jak temperatura lub sprzedaż ogółem. W idealnej sytuacji zmienna zależna ma rozkład normalny.
  • Użyj typu modelu Binarny (logistyczny), jeśli zmienna zależna może przyjąć jedną z dwóch możliwych wartości, takich jak powodzenie lub niepowodzenie albo istnienie lub brak. Pole zawierające zmienną zależną musi być polem liczbowym i może zawierać tylko jedynki i zera. W danych muszą występować wariacje składające się z jedynek i zer.

  • Rozważ użycie typu modelu Wyliczeniowy (Poissona), jeśli zmienna zależna jest dyskretna i reprezentuje liczbę wystąpień wydarzenia, np. liczbę przestępstw. Modeli wyliczeniowych można także używać wtedy, gdy zmienna zależna reprezentuje współczynnik, a denominatorem tego współczynnika jest wartość stała, taka jak sprzedaż w ciągu miesiąca lub liczba osób chorych na raka przypadających na populację 10 000 osób. W modelu Wyliczeniowym przyjęto, że średnia i wariancja zmiennej zależnej są równe, a wartości zmiennej zależnej nie mogą być ujemne i nie mogą być wartościami dziesiętnymi.

Parametrami zmiennej zależnej i zmiennej objaśniającej powinny być pola liczbowe obejmujące zakres wartości. To narzędzie nie może wyznaczyć rozwiązania, gdy zmienne mają takie same wartości (na przykład wtedy, gdy wszystkie zmienne dla pola mają wartość 9.0).

Obiekty z jedną lub większą liczbą wartości pustych lub z pustymi wartościami ciągów znakowych w polach prognozy lub opisujących zostaną wykluczone z danych wynikowych. Jeśli to konieczne, możesz zmodyfikować wartości za pomocą narzędzia Oblicz pole.

Należy dokonać wizualnej kontroli przeszacowań i niedoszacowań w błędach resztkowych regresji, aby sprawdzić, czy dostarczają informacje o potencjalnych brakujących zmiennych w modelu regresji.

Utworzonego modelu regresji można użyć do utworzenia prognoz dla innych obiektów. Aby utworzyć te prognozy, każdy obiekt prognozy (Wybierz warstwę, dla której będą prognozowane wartości) musi mieć wartości dla wszystkich dostarczonych zmiennych objaśniających. Jeśli nazwy pól z obiektów wejściowych i parametry lokalizacji prognoz nie są zgodne, udostępniany jest parametr dopasowywania zmiennych. Gdy dopasowywane są zmienne objaśniające, pola z obiektów wejściowych i parametry lokalizacji prognoz muszą mieć taki sam typ (na przykład pola typu liczba zmiennoprzecinkowa podwójnej precyzji muszą być dopasowane do pól typu liczba zmiennoprzecinkowa podwójnej precyzji).

Dane wynikowe

Narzędzie Generalizowana regresja liniowa generuje różnorodne dane wynikowe. Podsumowanie modelu GLR i podsumowania statystyczne są dostępne na stronie elementu portalu i jako zasób w warstwie. Aby uzyskać dostęp do podsumowania wyników, kliknij opcję Pokaż wyniki Pokaż wyniki pod wynikową warstwą w przeglądarce map Map Viewer. To narzędzie generuje co najmniej jedną warstwę wynikową i opcjonalne wynikowe obiekty prognozy. Obiekty wynikowe są automatycznie dodawane do przeglądarki map Map Viewer ze schematem wyświetlania zimno/gorąco zastosowanym do modelowania błędów. Generowana diagnostyka zależy od typu modelu obiektów wejściowych. Opis znajduje się poniżej.

Ciągły (gaussowski)

Interpretowanie komunikatów i diagnostyki

  • AIC — jest to miara wydajności modelu. Można jej używać do porównywania modeli regresji. Biorąc pod uwagę złożoność modelu, model o niższej wartości AIC zapewnia lepsze dopasowanie do obserwowanych danych. AIC nie jest bezwzględną miarą dokładności dopasowania, ale miara ta jest przydatna do porównywania modeli z różnymi zmiennymi objaśniającymi, jeśli tylko mają one zastosowanie do tej samej zmiennej zależnej. Jeśli wartości miary AIC dla dwóch modeli różnią się o więcej niż 3, model o mniejszej wartości AIC uważa się za dokładniejszy.
  • AICc — AICc stosuje korekcję odchylenia do miary AIC dla małych próbek. Miara AICc będzie zbliżała się do miary AIC wraz ze wzrostem liczby obiektów w danych wejściowych. Zapoznaj się z informacjami o mierze AIC podanymi powyżej.
  • Wielokrotny R kwadrat — R kwadrat jest miarą dokładności dopasowania. Jej wartość należy do zakresu od 0,0 do 1,0, przy czym preferowane są większe wartości. Można ją interpretować jako proporcję wariancji wyliczonej dla zmiennej zależnej w stosunku do modelu regresji. Denominatorem dla obliczeń R kwadrat jest suma kwadratów wartości zmiennej zależnej. Dodanie dodatkowej zmiennej objaśniającej do modelu nie zmienia denominatora, ale zmienia licznik; sprawia to wrażenie udoskonalenia dopasowania modelu, ale może tak nie być. Patrz Dostosowany R kwadrat poniżej.
  • Dostosowany R kwadrat — z powodu opisanego powyżej problemu dotyczącego wartości R kwadrat, obliczenia dla wartości dostosowanego R kwadratu normalizują licznik i denominator o ich stopnie swobody. Daje to efekt kompensacji liczby zmiennych w modelu, a w konsekwencji wartość Dostosowany R kwadrat jest prawie zawsze mniejsza niż wartość R kwadrat. Jednak, wprowadzając to dostosowanie, traci się interpretację wartości jako proporcji wariancji. W geograficznie ważonej regresji (GWR) efektywna liczba stopni swobody jest funkcją użytego sąsiedztwa, tak więc dostosowanie może być dość wyraźne w porównaniu z modelem globalnym, takim jak GLR. Powoduje to, że AICc jest preferowanym sposobem porównywania modeli.

Binarny (logistyczny)

Interpretowanie komunikatów i diagnostyki

  • AIC — jest to miara wydajności modelu. Można jej używać do porównywania modeli regresji. Biorąc pod uwagę złożoność modelu, model o niższej wartości AIC zapewnia lepsze dopasowanie do obserwowanych danych. AIC nie jest bezwzględną miarą dokładności dopasowania, ale miara ta jest przydatna do porównywania modeli z różnymi zmiennymi objaśniającymi, jeśli tylko mają one zastosowanie do tej samej zmiennej zależnej. Jeśli wartości miary AIC dla dwóch modeli różnią się o więcej niż 3, model o mniejszej wartości AIC uważa się za dokładniejszy.
  • AICc — AICc stosuje korekcję odchylenia do miary AIC dla małych próbek. Miara AICc będzie zbliżała się do miary AIC wraz ze wzrostem liczby obiektów w danych wejściowych. Zapoznaj się z informacjami o mierze AIC podanymi powyżej.

Wyliczeniowy (Poissona)

Interpretowanie komunikatów i diagnostyki

  • AIC — jest to miara wydajności modelu. Można jej używać do porównywania modeli regresji. Biorąc pod uwagę złożoność modelu, model o niższej wartości AIC zapewnia lepsze dopasowanie do obserwowanych danych. AIC nie jest bezwzględną miarą dokładności dopasowania, ale miara ta jest przydatna do porównywania modeli z różnymi zmiennymi objaśniającymi, jeśli tylko mają one zastosowanie do tej samej zmiennej zależnej. Jeśli wartości miary AIC dla dwóch modeli różnią się o więcej niż 3, model o mniejszej wartości AIC uważa się za dokładniejszy.
  • AICc — AICc stosuje korekcję odchylenia do miary AIC dla małych próbek. Miara AICc będzie zbliżała się do miary AIC wraz ze wzrostem liczby obiektów w danych wejściowych. Zapoznaj się z informacjami o mierze AIC podanymi powyżej.

Ograniczenia

Implementacja generalizowanej regresji liniowej dostępna w narzędziach GeoAnalytics ma następujące ograniczenia:

  • Jest to model regresji globalnej i nie uwzględnia rozkładu przestrzennego danych.
  • Analiza nie stosuje testu I Morana na błędach.
  • Na wejściu obsługiwane są zestawy danych obiektowych (punkty, linie, poligony i tabele). Rastry nie są obsługiwane.
  • Nie można klasyfikować wartości w wielu klasach.

Przykład użycia interfejsu ArcGIS API for Python

Narzędzie Generalizowana regresja liniowa jest dostępne za pośrednictwem interfejsu ArcGIS API for Python.

Ten przykład ilustruje dopasowywanie modelu do jednego zestawu danych i stosowanie uzyskanej prognozy do innego.


# Import the required ArcGIS API for Python modules import arcgis from arcgis.gis import GIS
# Connect to your ArcGIS Enterprise portal and check that GeoAnalytics is supported portal = GIS("https://myportal.domain.com/portal", "gis_publisher", "my_password", verify_cert=False) if not portal.geoanalytics.is_supported():
    print("Quitting, GeoAnalytics is not supported")    exit(1)   
# Search for and list the big data file shares in your portal search_result = portal.content.search("", "Big Data File Share")
# Look through search results for a big data file share with the matching name that you want to model model_layer = next(x for x in search_result if x.title == "bigDataFileShares_Sales_2018")
# Find the dataset you want to predict predict_layer = portal.content.search("Sales_2025", "Feature Layer") predict_layer = layer_result[0].layers[0]
# Run the tool Generalized Linear Regression glr_result = arcgis.geoanalytics.analyze_patterns.glr(input_layer = model_layer, 	features_to_predict = predict_layer,
	var_explanatory = "salestotal, store_count, advertisingcost",	var_dependent = "chicago_crimes_enriched",	regression_family = "Count",	exp_var_matching = [{"predictionLayerField":"store_count", "trainingLayerField": "num_of_stores"}],	output_name = "predicted_customers")
# Visualize the results if you are running Python in a Jupyter Notebook processed_map = portal.map() processed_map.add_layer(glr_result) processed_map

Podobne narzędzia

Narzędzie Generalizowana regresja liniowa serwera ArcGIS GeoAnalytics Server służy do generowania prognoz lub modelowania zmiennej zależnej w kontekście jej relacji z zestawem zmiennych objaśniających. Do rozwiązywania podobnych, ale nieco innych problemów, mogą być przydatne inne narzędzia.

Narzędzia analizy Map Viewer

Narzędzie Klasyfikacja i regresja oparta na zespołach drzew decyzyjnych serwera ArcGIS GeoAnalytics Server umożliwia tworzenie modeli i prognoz.

Narzędzia analizy ArcGIS Desktop

Aby możliwe było uruchomienie tego narzędzia z poziomu aplikacji ArcGIS Pro, aktywny portal musi być w wersji Enterprise 10.7 lub nowszej. Należy zalogować się do portalu przy użyciu konta z uprawnieniami do wykonywania analizy obiektowej w ramach analizy geoprzestrzennej.

Wykonaj podobne operacje regresji w aplikacji ArcGIS Pro, używając narzędzia geoprzetwarzania Generalizowana regresja liniowa dostępnego w ramach skrzynki narzędziowej Statystyki przestrzenne.

Twórz modele i prognozy przy użyciu dostosowanego algorytmu losowych zespołów drzew decyzyjnych (lasów) opracowanego przez Leo Breimana w aplikacji ArcGIS Pro, korzystając z narzędzia geoprzetwarzania Klasyfikacja i regresja oparta na zespołach drzew decyzyjnych dostępnego w ramach skrzynki narzędziowej Statystyki przestrzenne.

Wykonaj regresję GWR w aplikacji ArcGIS Pro, korzystając z narzędzia geoprzetwarzania Geograficznie ważona regresja dostępnego w ramach skrzynki narzędziowej Statystyki przestrzenne.