Notatka:
Ta funkcja jest aktualnie obsługiwana tylko w przeglądarce map Map Viewer Classic (wcześniej noszącej nazwę Map Viewer). Będzie ona dostępna w przyszłej wersji nowej przeglądarki map Map Viewer.
Narzędzie Klasyfikacja i regresja oparta na zespołach drzew decyzyjnych tworzy modele i generuje prognozy z użyciem dostosowanego algorytmu losowych zespołów drzew decyzyjnych (lasów) — opracowanego przez Leo Breimana — będącego przykładem metody nadzorowanego samouczenia się maszyn. Prognozowanie może dotyczyć zarówno zmiennych jakościowych (klasyfikacja), jak i ciągłych (regresja). Zmienne objaśniające mogą mieć postać pól w tabeli atrybutów obiektów treningowych. Oprócz sprawdzania wydajności modelu na podstawie danych treningowych, można prognozować obiekty.
Diagram procedury wykonywania zadań
Analiza z użyciem narzędzi GeoAnalytics Tools
Analiza z użyciem narzędzi GeoAnalytics Tools jest uruchamiana przy zastosowaniu przetwarzania rozproszonego na wielu komputerach i rdzeniach ArcGIS GeoAnalytics Server. Narzędzia GeoAnalytics Tools oraz narzędzia do standardowej analizy obiektowej w oprogramowaniu ArcGIS Enterprise mają różne parametry i możliwości. Więcej informacji o tych różnicach można znaleźć w sekcji Różnice między narzędziami analizy obiektowej.
Przykłady
Poniżej podano przykładowe zastosowania tego narzędzia:
- Mając dane dotyczące występowania trawy morskiej oraz pewną liczbę środowiskowych zmiennych objaśniających, oprócz odległości do fabryk znajdujących się w górnym biegu rzeki oraz do głównych portów, można prognozować przyszłe występowanie trawy morskiej na podstawie przewidywanych wartości tych samych środowiskowych zmiennych objaśniających.
- Wartości danych dotyczących mieszkalnictwa można prognozować na podstawie cen domów, które zostały sprzedane w bieżącym roku. Ceny sprzedaży domów wraz z informacjami o liczbie sypialni, odległości do szkoły, bliskości do głównych dróg, średnim dochodzie i liczbie przestępstw umożliwiają prognozowanie wartości cen sprzedaży podobnych domów.
- Mając informacje o poziomie ołowiu we krwi wśród dzieci i identyfikatory podatkowe działek, na których znajdują się ich domy wraz z atrybutami tych działek, takimi jak wiek domu, dane spisowe, takie jak dochód i poziom wykształcenia, a także krajowe zestawy danych odzwierciedlające uwalnianie ołowiu i związków ołowiu, można przewidzieć ryzyko narażenia na działanie ołowiu dla działek bez danych dotyczących poziomu ołowiu we krwi. Te prognozy ryzyka mogą być uwzględniane przy opracowywaniu polityk i programów edukacyjnych w danym obszarze.
Uwagi dotyczące korzystania
To narzędzie tworzy setki drzew zwanych drzewami decyzyjnymi, w celu utworzenia modelu, który następnie może być wykorzystywany do prognozowania. Każde drzewo decyzyjne jest tworzone z użyciem losowo generowanych części oryginalnych danych (treningowych). Każde drzewo generuje własną prognozę i głosuje (wpływa) na wynik. Model lasów uwzględnia głosy z wszystkich drzew decyzyjnych, aby prognozować lub sklasyfikować wynik nieznanej próbki. Jest to ważne, ponieważ w przypadku poszczególnych drzew mogą wystąpić problemy z nadmiernym dopasowaniem modelu. Jednak połączenie wielu drzew w zespół drzew na potrzeby prognozowania obsługuje problem z nadmiernym dopasowaniem związany z pojedynczym drzewem.
Tego narzędzia można używać w dwóch trybach działania. Opcji Przetrenuj model, aby ocenić jego wydajność można użyć do oceny wydajności różnych modeli podczas eksplorowania różnych zmiennych objaśniających i ustawień narzędzia. Po znalezieniu dobrego modelu można użyć opcji Dopasuj model i prognozuj wartości. To narzędzie bazuje na danych i działa najlepiej w przypadku dużych zestawów danych. Aby uzyskać najlepsze wyniki, trening tego narzędzia należy przeprowadzić z użyciem przynajmniej kilkuset obiektów. To narzędzie nie jest odpowiednie dla bardzo małych zestawów danych.
Wejściowymi obiektami treningowymi mogą być tabele, punkty, linie lub obiekty powierzchniowe. To narzędzie nie działa z danymi wieloczęściowymi.
Obiekty z jedną lub większą liczbą wartości pustych lub z pustymi wartościami ciągów znakowych w polach prognozy lub opisujących zostaną wykluczone z danych wynikowych. Jeśli to konieczne, możesz zmodyfikować wartości za pomocą narzędzia Oblicz pole.
To narzędzie generuje różnorodne wyniki. Generowane wyniki różnią się w zależności od trybu działania:
- Opcja Przetrenuj model, aby ocenić jego wydajność generuje dwa następujące wyniki:
- Wynikowe obiekty treningowe — zawiera wszystkie Wejściowe obiekty treningowe używane w utworzonym modelu, a także wszystkie zmienne objaśniające używane w tym modelu. Ponadto zawiera prognozy dla wszystkich obiektów używanych na potrzeby trenowania modelu, co może być przydatne do oceny wydajności utworzonego modelu.
- Komunikaty podsumowania narzędzia — komunikaty ułatwiające zrozumienie wydajności utworzonego modelu. Komunikaty zawierają informacje o cechach modelu, błędy, ważność zmiennych i diagnostykę weryfikacji. Aby uzyskać dostęp do podsumowania wyników, kliknij opcję Pokaż wyniki pod wynikową warstwą w przeglądarce map Map Viewer Classic. Informacje podsumowania są także dodawane do strony szczegółów elementu.
- OpcjaDopasuj model i prognozuj wartości generuje trzy następujące dane wynikowe:
- Wynikowe obiekty treningowe — zawiera wszystkie Wejściowe obiekty treningowe używane w utworzonym modelu, a także wszystkie zmienne objaśniające używane w tym modelu. Ponadto zawiera prognozy dla wszystkich obiektów używanych na potrzeby trenowania modelu, co może być przydatne do oceny wydajności utworzonego modelu.
- Wynikowe obiekty prognozy — warstwa prognozowanych wyników. Prognozy są stosowane do warstwy na potrzeby prognozowania (Wybierz warstwę, dla której mają być prognozowane wartości) z użyciem modelu generowanego z warstwy treningowej.
- Komunikaty podsumowania narzędzia — komunikaty ułatwiające zrozumienie wydajności utworzonego modelu. Komunikaty zawierają informacje o cechach modelu, błędy, ważność zmiennych i diagnostykę weryfikacji. Aby uzyskać dostęp do podsumowania wyników, kliknij opcję Pokaż wyniki pod wynikową warstwą w przeglądarce map Map Viewer Classic. Informacje podsumowania są także dodawane do strony szczegółów elementu.
Za pomocą parametru Tabela istotności zmiennych wynikowych można utworzyć tabelę w celu wyświetlenia diagramu istotności zmiennych na potrzeby oceny. W oknie komunikatów wyświetlanych jest także 20 pierwszych wartości istotności zmiennych. Dostęp do tego diagramu można uzyskać bezpośrednio poniżej warstwy na panelu Zawartość.
Zmienne objaśniające mogą pochodzić z pól i powinny zawierać różnorodne wartości. Jeśli zmienna objaśniająca jest kategorialna, pole wyboru Kategorialne powinno być zaznaczone (zmienne o typie ciągu znakowego będą zaznaczone automatycznie). Kategorialne zmienne objaśniające mają limit wynoszący 60 unikalnych wartości, chociaż mniejsza liczba kategorii zwiększy wydajność modelu. Dla określonego rozmiaru danych, im więcej kategorii zawiera zmienna, tym bardziej prawdopodobne jest to, że zdominuje ona model i doprowadzi do mniej użytecznych wyników prognozy.
Podczas dopasowywania zmiennych objaśniających Pole treningowe i Pole prognozy muszą mieć pola o takim samym typie (na przykład pole typu liczba zmiennoprzecinkowa podwójnej precyzji w Polu treningowym musi zostać dopasowane do pola typu liczba zmiennoprzecinkowa podwójnej precyzji w Polu prognozy ).
Modele oparte na zespołach drzew decyzyjnych nie dokonują ekstrapolacji. Mogą one jedynie klasyfikować lub prognozować wartość użytą do trenowania modelu. Należy przeprowadzić trening modelu z obiektami treningowymi i zmiennymi objaśniającymi znajdującymi się w zakresie docelowych obiektów i zmiennych. Narzędzie zakończy działanie niepowodzeniem, jeśli w zmiennych objaśniających prognozy istnieją kategorie, które nie wystąpiły w obiektach treningowych.
Wartością domyślną parametru Liczba drzew jest 100. Zwiększenie liczby drzew w modelu zespołów drzew decyzyjnych skutkuje uzyskaniem modelu pozwalającego na dokładniejsze prognozowanie, ale obliczenie modelu zajmuje więcej czasu.
Więcej informacji na temat sposobu działania tego narzędzia i narzędzia geoprzetwarzania ArcGIS Pro, na którym ta implementacja jest oparta, zawiera sekcja Sposób działania klasyfikacji i regresji opartej na zespołach drzew decyzyjnych.
Ograniczenia
Implementacja klasyfikacji i regresji opartej na zespołach drzew decyzyjnych dostępna w narzędziach GeoAnalytics ma następujące ograniczenia:
- Na wejściu obsługiwane są zestawy danych obiektowych (punkty, linie, poligony i tabele). Rastry nie są obsługiwane.
- Obsługiwana jest jedna warstwa na potrzeby treningu i jedna warstwa na potrzeby prognozy. Aby połączyć wiele zestawów danych w jeden, użyj narzędzi Buduj siatkę wielu wartości i Wzbogać na podstawie siatki wielu wartości w celu wygenerowania danych wejściowych.
Przykład użycia interfejsu ArcGIS API for Python
Narzędzie Klasyfikacja i regresja oparta na zespołach drzew decyzyjnych jest dostępne za pośrednictwem interfejsu ArcGIS API for Python.
Ten przykład ilustruje tworzenie modelu i prognozowanie sprzedaży lodów.
# Import the required ArcGIS API for Python modules
import arcgis
from arcgis.gis import GIS
# Connect to your ArcGIS Enterprise portal and confirm that GeoAnalytics is supported
portal = GIS("https://myportal.domain.com/portal", "gis_publisher", "my_password")
if not portal.geoanalytics.is_supported():
print("Quitting, GeoAnalytics is not supported")
exit(1)
# Find the big data file share dataset you'll use for analysis
search_result = portal.content.search("", "Big Data File Share")
# Look through the search results for a big data file share with the matching name
bdfs_search = next(x for x in search_result if x.title == "bigDataFileShares_SaleData")
# Look through the big data file share for ice cream sales data
icecream_sales = next(x for x in bdfs_search.layers if x.properties.name == "IceCreamSales")
# Run the Forest-based Classification and Regression tool
forest_model = arcgis.geoanalytics.analyze_patterns.forest(prediction_type = "train",
input_layer = icecream_sales,
var_prediction = {"fieldName":"Amount", "categorical":true},
var_explanatory = [{"fieldName":"Weekend", "categorical":true},
{"fieldName":"Temperature", "categorical":false},
{"fieldName":"Holiday", "categorical":true},
{"fieldName":"DistanceToBeach", "categorical":false}],
sample_size = 50,
output_name = "ice_cream_prediction")
Podobne narzędzia
Użyj narzędzia Klasyfikacja i regresja oparta na zespołach drzew decyzyjnych serwera ArcGIS GeoAnalytics Server do wygenerowania prognoz lub do modelowania przy użyciu dostosowanego algorytmu losowych zespołów drzew decyzyjnych (lasów) opracowanego przez Leo Breimana. Do rozwiązywania podobnych, ale nieco innych problemów, mogą być przydatne inne narzędzia.
Narzędzia analizy Map Viewer Classic
Twórz modele i prognozy za pomocą narzędzia Generalizowana regresja liniowa serwera ArcGIS GeoAnalytics Server.
Narzędzia analizy aplikacji ArcGIS Pro
Aby możliwe było uruchomienie tego narzędzia z poziomu aplikacji ArcGIS Pro, aktywny portal musi być w wersji Enterprise 10.7 lub nowszej. Należy zalogować się do portalu przy użyciu konta z uprawnieniami do wykonywania analizy obiektowej w ramach analizy geoprzestrzennej.
Wykonaj podobne operacje regresji w aplikacji ArcGIS Pro, używając narzędzia geoprzetwarzania Klasyfikacja i regresja oparta na zespołach drzew decyzyjnych dostępnego w ramach skrzynki narzędziowej Statystyki przestrzenne.
Przeprowadź generalizowaną regresję liniową (Generalized Linear Regression — GLR) w celu generowania prognoz lub modelowania zmiennej zależnej w kontekście jej relacji z zestawem zmiennych objaśniających w aplikacji ArcGIS Pro, używając narzędzia geoprzetwarzania Generalizowana regresja liniowa dostępnego w ramach skrzynki narzędziowej Statystyki przestrzenne.
Przeprowadź Geograficznie ważoną regresję (Geographically Weighted Regression — GWR) w aplikacji ArcGIS Pro, używając narzędzia geoprzetwarzania Geograficznie ważona regresja dostępnego w ramach skrzynki narzędziowej Statystyki przestrzenne.