Classificazione e regressione basate sulla foresta crea modelli e genera previsioni utilizzando un adattamento dell'algoritmo della foresta casuale di Leo Breiman, un metodo di apprendimento automatico revisionato. Le previsioni possono essere eseguite tanto per variabili categoriche (classificazione) quanto per variabili continue (regressione). Le variabili esplicative possono essere campi nella tabella degli attributi delle feature di addestramento. Oltre alla convalida della prestazione del modello basata sui dati di addestramento, le previsioni possono essere effettuate sulle feature.
Diagramma del Workflow
Analisi tramite GeoAnalytics Tools
L'analisi tramite GeoAnalytics Tools viene eseguita utilizzando l'elaborazione distribuita su più computer e core ArcGIS GeoAnalytics Server. GeoAnalytics Tools e gli strumenti di analisi delle feature standard in ArcGIS Enterprise dispongono di diversi parametri e funzionalità. Per ulteriori informazioni sulle differenze, consultare Differenze tra gli strumenti di analisi delle feature.
Esempi
- Considerando i dati sulla comparsa di praterie, nonché il numero di variabili esplicative ambientali, oltre alle distanze da fabbriche a monte e porti principali, la comparsa futura di praterie può essere prevista sulla base di proiezioni per quelle stesse variabili esplicative ambientali.
- I valori delle abitazioni possono essere previsti sulla base dei prezzi delle case vendute nell'anno attuale. Il prezzo di vendita delle case vendute può essere usato insieme alle informazioni sul numero di stanze da letto, sulla distanza da scuole, sulla vicinanza ad autostrade principali, sul reddito medio e sui conteggi dei crimini per prevedere i prezzi di vendita di case simili.
- Considerando le informazioni sui livelli di piombo nel sangue nei bambini e il tasso di ID particella delle loro case, combinate con attributi del livello di particelle come età della casa, dati sul livello di censimento come reddito e livello di istruzione, e dataset nazionali rispecchianti il rilascio tossico di piombo e delle sue componenti, è possibile prevedere il rischio di esposizione al piombo per dati di particelle senza livelli di piombo nel sangue. Queste previsioni di rischio possono risultare utili per le politiche e i programmi di istruzione nell’area.
Note sull'utilizzo
Questo strumento crea centinaia di alberi, chiamati insieme di alberi decisionali, per creare un modello che possa essere utilizzato per la previsione. Ogni albero decisionale viene creato utilizzando porzioni di dati originali (addestramento) generate casualmente. Ogni albero decisionale genera la propria previsione e assegna un voto al risultato. Il modello della foresta considera voti da tutti gli alberi decisionali per predire o classificare il risultato di un campione sconosciuto. Questo è importante in quanto singoli alberi possono avere problemi nell’adattamento di un modello; tuttavia, combinare più alberi in una foresta per generare previsioni affronta il problema associato ad un singolo albero.
Questo strumento può essere utilizzato in due modalità operative. L’opzione Addestrare un modello per valutare le prestazioni del modello può essere utilizzata per valutare le prestazioni di vari modelli finché si esplorano varie variabili descrittive e impostazioni dello strumento. Una volta trovato un buon modello, è possibile utilizzare l’opzione Adatta un modello e prevedi valori. Questo è uno strumento basato sui dati e funziona meglio su ampi dataset. Lo strumento dovrebbe essere addestrato su almeno diverse centinaia di feature per risultati migliori. Non è uno strumento adeguato per dataset piuttosto ridotti.
Le Feature di addestramento di input possono essere tabelle, feature puntuali, lineari o areali. Questo strumento non funziona con dati multiparte.
Le feature con uno o più valori null o valori di stringa vuoti nei campi di previsione o esplicativi saranno escluse dall'output. Se necessario, è possibile modificare i valori usando Calcola campo.
Questo strumento produce varietà di output. Gli output prodotti variano a seconda della modalità operativa come segue:
- Addestra un modello per valutare le prestazioni del modello produce i due output seguenti:
- Feature di addestramento di output: contiene tutte le Feature di addestramento di input utilizzate nel modello creato così come tutte le variabili descrittive utilizzate nel modello. Contiene anche previsioni per tutte le feature utilizzate per addestrare il modello, che possono essere utili nella valutazione della previsione del modello creato.
- Messaggi di riepilogo dello strumento: messaggi per aiutare a comprendere la prestazione del modello creato. I messaggi includono informazioni sulle caratteristiche del modello, errori out-of-bag, importanza variabile e diagnostica di convalida. Per accedere al riepilogo dei risultati, fare clic su Mostra risultati sotto al layer risultante in Map Viewer. Le informazioni di riepilogo sono aggiunte alla pagina dei dettagli dell’elemento.
- Adatta un modello e prevedi valori produce i tre output seguenti:
- Feature di addestramento di output: contiene tutte le Feature di addestramento di input utilizzate nel modello creato così come tutte le variabili descrittive utilizzate nel modello. Contiene anche previsioni per tutte le feature utilizzate per addestrare il modello, che possono essere utili nella valutazione della previsione del modello creato.
- Feature di predizione di output: un layer di risultati previsti. Le previsioni sono applicate al layer da prevedere (Scegli layer per il quale prevedere valori) utilizzando il modello generato dal layer di addestramento.
- Messaggi di riepilogo dello strumento: messaggi per aiutare a comprendere la prestazione del modello creato. I messaggi includono informazioni sulle caratteristiche del modello, errori out-of-bag, importanza variabile e diagnostica di convalida. Per accedere al riepilogo dei risultati, fare clic su Mostra risultati sotto al layer risultante in Map Viewer. Le informazioni di riepilogo sono aggiunte alla pagina dei dettagli dell’elemento.
È possibile utilizzare il parametro Tabella di importanza variabili di output per creare una tabella per visualizzare una classifica di importanza delle variabili per la valutazione. I primi 20 valori di importanza delle variabili sono anch’essi riportati nella finestra dei messaggi. È possibile accedere alla classifica direttamente di seguito al layer nel riquadro Contenuti.
Le variabili descrittive possono provenire da diversi campi e dovrebbero contenere diversi valori. Se la variabile descrittiva è categorica, la casella di controllo Categorico dovrebbe essere selezionata (le variabili di tipo stringa verranno automaticamente selezionate). Le variabili descrittive categoriche sono limitate a 60 valori univoci, anche se un numero inferiore di categorie migliorerà le prestazioni del modello. Per determinate dimensioni di dati, più categorie contiene una variabile e più probabilmente essa dominerà il modello e porterà a risultati di previsione poco efficienti.
Quando si corrispondono le variabili descrittive, il Campo di addestramento e il Campo di previsione devono avere campi che siano dello stesso tipo (un doppio campo in Campo di addestramento deve essere corrisposto a un doppio campo in Campo di previsione).
I modelli basati sulla foresta non si estrapolano; essi possono solamente classificare o predire un valore su cui il modello è stato addestrato. Addestrare il modello con le feature di addestramento e le variabili descrittive che sono dentro all’intervallo delle feature e variabili di destinazione. Questo strumento non funzionerà se le categorie esistono nelle variabili descrittive di previsione che non erano presenti nelle feature di addestramento.
Il valore predefinito per il parametro Numero di alberi è 100. Aumentare il numero di alberi nel modello della foresta genererà una previsione di modello più precisa, ma il calcolo del modello impiegherà più tempo.
Per ulteriori informazioni sul funzionamento di questo strumento e sullo ArcGIS Pro strumento di geoprocessing su cui si basa questa implementazione, consultare Come funziona Classificazione e regressione basate sulla foresta.
Limitazioni
L’implementazione GeoAnalytics di Classificazione e regressione basate sulla foresta ha le seguenti limitazioni:
- I feature dataset (puntuali, lineari, poligonali e tabelle) sono supportati come input. I raster non sono supportati.
- Sono supportati un singolo layer per l’addestramento e un singolo layer per la previsione. Per combinare più dataset in uno, utilizzare gli strumenti Crea griglia multi-variabile e Aggiungi dati da griglia multi-variabile per generare dati di input.
Esempio ArcGIS API for Python
Lo strumento Classificazione e regressione basate sulla foresta è disponibile tramite ArcGIS API for Python.
Questo esempio crea un modello e prevede le vendite di gelati.
# Import the required ArcGIS API for Python modules import arcgis from arcgis.gis import GIS
# Connect to your ArcGIS Enterprise portal and check that GeoAnalytics is supported portal = GIS("https://myportal.domain.com/portal", "gis_publisher", "my_password", verify_cert=False) if not portal.geoanalytics.is_supported():
print("Quitting, GeoAnalytics is not supported") exit(1)
# Find the big data file share dataset you're interested in using for analysis search_result = portal.content.search("", "Big Data File Share")
# Look through search results for a big data file share with the matching name bd_file = next(x for x in search_result if x.title == "bigDataFileShares_IceCreamSales")
# Run the tool Forest-based Classification and Regression to predict forest_model = arcgis.geoanalytics.analyze_patterns.forest(prediction_type = "train", input_layer = bd_file, var_prediction = {"fieldName":"Amount", "categorical":true},
var_explanatory = [{"fieldName":"Weekend", "categorical":true},{"fieldName":"Temperature", "categorical":false}, {"fieldName":"Holiday", "categorical":true}, {"fieldName":"DistanceToBeach", "categorical":false}], sample_size = 50, output_name = "ice_cream_prediction")
Strumenti simili
Utilizzare lo strumento Classificazione e regressione basate sulla foresta di ArcGIS GeoAnalytics Server per generare previsioni o modelli usando un adattamento dell’algoritmo della foresta casuale di Leo Breiman. Altri strumenti possono essere utili per la risoluzione di problemi simili ma leggermente diversi.
Strumenti di analisi di Map Viewer
Creare modelli e previsioni utilizzando lo strumento Regressione lineare generalizzata di ArcGIS GeoAnalytics Server.
Strumenti di analisi di ArcGIS Desktop
Per eseguire questo strumento da ArcGIS Pro, il portale attivo deve essere Enterprise 10.7 o versione successiva. È necessario effettuare l'accesso utilizzando un account che ha privilegi per eseguire le analisi delle feature GeoAnalytics.
Eseguire operazioni di regressione simili in ArcGIS Pro con lo strumento di geoprocessing Classificazione e regressione basate sulla foresta come parte della casella degli strumenti di Statistiche spaziali.
Eseguire Regressione lineare generalizzata (GLR) per generare previsioni o per modellare una variabile dipendente in base alla sua relazione con un set di variabili esplicative in ArcGIS Pro con lo strumento di geoprocessing Regressione lineare generalizzata nella casella degli strumenti di Statistiche spaziali.
Eseguire Regressione ponderata geograficamente (GWR) in ArcGIS Pro con lo strumento di geoprocessing Regressione ponderata geograficamente nella casella degli strumenti di Statistiche spaziali.