Skip To Content

Regressione lineare generalizzata

Regressione lineare generalizzataEsegue Regressione lineare generalizzata (GLR) per generare previsioni o per modellare una variabile dipendente in base alla sua relazione con un set di variabili esplicative. Questo strumento può essere usato per adattare modelli continui (gaussiani), binari (logistici) e di conteggio (Poisson).

Diagramma del Workflow

Diagramma del workflow di Regressione lineare generalizzata

Analisi tramite GeoAnalytics Tools

L'analisi tramite GeoAnalytics Tools viene eseguita utilizzando l'elaborazione distribuita su più computer e core ArcGIS GeoAnalytics Server. GeoAnalytics Tools e gli strumenti di analisi delle feature standard in ArcGIS Enterprise dispongono di diversi parametri e funzionalità. Per ulteriori informazioni sulle differenze, consultare Differenze tra gli strumenti di analisi delle feature.

Esempi

  • In qualità di analista GIS in un’azienda di pubblici servizi, si ha un dataset di black-out elettrici così come dati su condizioni meteorologiche estreme. Aggiungere i propri dati sui black-out utilizzando gli strumenti Crea griglia multi-variabile e Aggiungi dati da griglia multi-variabile per creare un dataset con informazioni sulle condizioni meteorologiche estreme per i black-out. Utilizzare Regressione lineare generalizzata per determinare quale evento abbia portato al black-out elettrico. Ora che si hanno queste informazioni, è possibile predire i black-out e allocare le risorse.
  • In qualità di analista per una grande città, si hanno le registrazioni effettuate al numero di emergenza, così come informazioni demografiche. È necessario rispondere alla seguente domanda: quali variabili prevedono efficacemente il volume di chiamate al numero di emergenza? Considerate le proiezioni future, qual è la richiesta prevista per le risorse di soccorso di emergenza?

Note sull'utilizzo

Questo strumento può essere utilizzato in due modalità operative. L’opzione Adatta un modello per valutare le prestazioni del modello può essere utilizzata per valutare le prestazioni di diversi modelli finché si esplorano diverse variabili descrittive e impostazioni dello strumento. Una volta trovato un buon modello, è possibile utilizzare l’opzione Adatta un modello e prevedi valori.

Utilizzare il parametro Scegli un layer da cui generare un modello con un campo rappresentante il fenomeno di cui si sta creando il modello (Scegliere il campo da modellare) e uno o più campi rappresentanti le variabili descrittive. Questi campi devono essere numerici e devono avere un intervallo di valori. Le feature contenenti valori mancanti nella variabile dipendente o descrittiva verranno escluse dall’analisi. Se si desidera modificare i valori nulli, utilizzare prima lo strumento Calcola campi per creare un nuovo layer con i valori aggiornati.

Lo strumento di Regressione lineare generalizzata produce anche feature di output e diagnosi. I feature layer di output vengono automaticamente aggiunti alla mappa con uno schema di rendering applicato ai residui del modello. Di seguito viene fornita un’esauriente spiegazione di ogni output.

È importante utilizzare il modello corretto (Continuo, Binario, o Di conteggio) per l’analisi al fine di ottenere risultati accurati per l’analisi di regressione.

Le diagnostica e i risultati di riepilogo del modello vengono scritti nella finestra dei messaggi e verranno create liste sotto la feature class di output. Le diagnostiche riportate dipendono dal Tipo di modello. Le tre opzioni per il tipo di modello sono le seguenti:

  • Utilizzare il tipo di modello Continuo (gaussiano) se la variabile dipendente può supportare ampi intervalli di valori come temperatura o vendite totali. Idealmente, la variabile dipendente verrà normalmente distribuita.
  • Utilizzare un tipo di modello Binario (logistico) se la variabile dipendente può supportare uno dei due valori possibili, come successo o presenza e assenza. Il campo contenente la variabile dipendente deve essere numerico e contenere solamente uno e zero. È necessario che ci sia una variazione di uno e zero nei propri dati.

  • Utilizzare un tipo di modello Conteggio (Poisson) se la variabile dipendente è discreta e rappresenta il numero di occorrenze di un evento come il conteggio dei crimini. I modelli di conteggio possono essere utilizzati anche se la variabile dipendente rappresenta un tasso e il denominatore del tasso è un valore fisso come numero di vendite per mese o numero di persone con il cancro per ogni 10.000 abitanti. Un modello di Conteggio assume che la media e la varianza della variabile dipendente siano uguali, e i valori della propria variabile dipendente non possano essere negativi o contenere decimali.

I parametri della variabile dipendente e della variabile descrittiva dovrebbero essere campi numerici contenenti un intervallo di valori. Questo strumento non può trovare una soluzione quando le variabili hanno gli stessi valori (ad esempio, se tutti i valori per un campo sono 9,0).

Le feature con uno o più valori null o valori di stringa vuoti nei campi di previsione o esplicativi saranno escluse dall'output. Se necessario, è possibile modificare i valori usando Calcola campo.

Si dovrebbero esaminare visivamente le sopra-previsioni e sotto-previsioni evidenti nei residui della regressione per vedere se è possibile ottenere indicazioni sulle possibili variabili mancanti dal modello di regressione.

È possibile utilizzare il modello di regressione creato per fare previsioni per le altre feature. Creare queste previsioni richiede che ogni feature di previsione (Scegli un layer per prevedere valori per) abbia un valore per ognuna delle variabili descrittive fornite. Se le denominazioni dei campi dai parametri di feature di input e posizioni della previsione non combaciano, verrà fornito un parametro corrispondente variabile. Quando si corrispondono le variabili descrittive, i campi dai parametri di feature di input e posizioni della previsione devono essere dello stesso tipo (ad esempio, i doppi campi devono essere corrisposti a doppi campi).

Output

Lo strumento Regressione lineare generalizzata produce diversi output. Un riepilogo del modello GLR e riepiloghi statistici sono disponibili nella pagina di elemento del portale come risorsa nel proprio layer. Per accedere al riepilogo dei risultati, fare clic su Mostra risultati Mostra risultati sotto al layer risultante in Map Viewer. Lo strumento genera almeno un layer di output e una feature di predizione di output opzionale. Le feature di output vengono automaticamente aggiunte a Map Viewer con uno schema di rendering hot e cold applicato ai residui del modello. Le diagnostiche generate dipendono dal tipo di modello delle feature di input e sono descritte di seguito.

Continuo (Gaussiano)

Interpretare messaggi e diagnostiche

  • AIC: questa è una misurazione della prestazione del modello e può essere utilizzata per comparare modelli di regressione. Considerando la complessità del modello, il modello con il valore AIC inferiore fornisce un approccio migliore ai dati osservati. AIC non è una misurazione assoluta del grado di idoneità, ma è utile per comparare modelli con diverse variabili descrittive fin tanto che esse si applichino alla stessa variabile dipendente. Se i valori AIC per due modelli differiscono di più di 3, il modello con il valore AIC inferiore è considerato il più accurato.
  • AICc: AICc applica una correzione del valore di disturbo a AIC per piccole dimensioni campione. AICc si avvicina a AIC quando il numero di feature nell’input aumenta. Consultare AIC sopra.
  • R2 multiplo: R2 è una misura del grado di idoneità. Il suo valore varia da 0,0 a 1,0, dove valori più alti si preferiscono. Si può interpretare come la proporzione della varianza della variabile dipendente rappresentata dal modello di regressione. Il denominatore della computazione R2 è la somma dei valori della variabile dipendente. L’aggiunta di una variabile descrittiva aggiuntiva non altera il denominatore bensì altera il numeratore; questo dà l’impressione di un miglioramento nell’idoneità del modello che potrebbe non essere verosimile. Consultare R2 regolato di seguito.
  • R2 regolato: dato il problema del valore R2 descritto sopra, i calcoli per il valore R2 regolato normalizzano numeratore e denominatore a seconda del loro grado di libertà. Questo va a compensare il numero delle variabili in un modello e, di conseguenza, il valore R2 regolato è sempre inferiore al valore R2. Tuttavia, attuando questa regolazione, si perde l’interpretazione del valore come porzione della varianza spiegata. In Regressione ponderata geograficamente (GWR), il numero effettivo dei gradi di libertà è una funzione della vicinanza utilizzata, in modo che la regolazione possa essere piuttosto marcata rispetto a un modello globale come GLR. Per questo motivo, si preferisce AICc come mezzo di comparazione tra modelli.

Binario (Logistico)

Interpretare messaggi e diagnostiche

  • AIC: questa è una misurazione della prestazione del modello e può essere utilizzata per comparare modelli di regressione. Considerando la complessità del modello, il modello con il valore AIC inferiore fornisce un approccio migliore ai dati osservati. AIC non è una misurazione assoluta del grado di idoneità, ma è utile per comparare modelli con diverse variabili descrittive fin tanto che esse si applichino alla stessa variabile dipendente. Se i valori AIC per due modelli differiscono di più di 3, il modello con il valore AIC inferiore è considerato il più accurato.
  • AICc: AICc applica una correzione del valore di disturbo a AIC per piccole dimensioni campione. AICc si avvicina a AIC quando il numero di feature nell’input aumenta. Consultare AIC sopra.

Conteggio (Poisson)

Interpretare messaggi e diagnostiche

  • AIC: questa è una misurazione della prestazione del modello e può essere utilizzata per comparare modelli di regressione. Considerando la complessità del modello, il modello con il valore AIC inferiore fornisce un approccio migliore ai dati osservati. AIC non è una misurazione assoluta del grado di idoneità, ma è utile per comparare modelli con diverse variabili descrittive fin tanto che esse si applichino alla stessa variabile dipendente. Se i valori AIC per due modelli differiscono di più di 3, il modello con il valore AIC inferiore è considerato il più accurato.
  • AICc: AICc applica una correzione del valore di disturbo a AIC per piccole dimensioni campione. AICc si avvicina a AIC quando il numero di feature nell’input aumenta. Consultare AIC sopra.

Limitazioni

L’implementazione GeoAnalytics di Regressione lineare generalizzata ha le seguenti limitazioni:

  • Si tratta di un modello di regressione e non prende in considerazione la distribuzione spaziale dei dati.
  • L’analisi non applica il test I di Moran sui residui.
  • I feature dataset (puntuali, lineari, poligonali e tabelle) sono supportati come input; i raster non sono supportati.
  • È possibile classificare i valori in classi multiple.

Esempio ArcGIS API for Python

Lo strumento Regressione lineare generalizzata è disponibile tramite ArcGIS API for Python.

Questo esempio adatta un modello a un dataset e applica la previsione a un altro.


# Import the required ArcGIS API for Python modules import arcgis from arcgis.gis import GIS
# Connect to your ArcGIS Enterprise portal and check that GeoAnalytics is supported portal = GIS("https://myportal.domain.com/portal", "gis_publisher", "my_password", verify_cert=False) if not portal.geoanalytics.is_supported():
    print("Quitting, GeoAnalytics is not supported")    exit(1)   
# Search for and list the big data file shares in your portal search_result = portal.content.search("", "Big Data File Share")
# Look through search results for a big data file share with the matching name that you want to model model_layer = next(x for x in search_result if x.title == "bigDataFileShares_Sales_2018")
# Find the dataset you want to predict predict_layer = portal.content.search("Sales_2025", "Feature Layer") predict_layer = layer_result[0].layers[0]
# Run the tool Generalized Linear Regression glr_result = arcgis.geoanalytics.analyze_patterns.glr(input_layer = model_layer, 	features_to_predict = predict_layer,
	var_explanatory = "salestotal, store_count, advertisingcost",	var_dependent = "chicago_crimes_enriched",	regression_family = "Count",	exp_var_matching = [{"predictionLayerField":"store_count", "trainingLayerField": "num_of_stores"}],	output_name = "predicted_customers")
# Visualize the results if you are running Python in a Jupyter Notebook processed_map = portal.map() processed_map.add_layer(glr_result) processed_map

Strumenti simili

Utilizzare lo strumento Regressione lineare generalizzata di ArcGIS GeoAnalytics Server per generare previsioni o modellare una variabile dipendente in base alla sua relazione con un set di variabili esplicative. Altri strumenti possono essere utili per la risoluzione di problemi simili ma leggermente diversi.

Strumenti di analisi di Map Viewer

Creare modelli e previsioni utilizzando lo strumento Classificazione e regressione basate sulla foresta di ArcGIS GeoAnalytics Server.

Strumenti di analisi di ArcGIS Desktop

Per eseguire questo strumento da ArcGIS Pro, il portale attivo deve essere Enterprise 10.7 o versione successiva. È necessario effettuare l'accesso utilizzando un account che ha privilegi per eseguire le analisi delle feature GeoAnalytics.

Eseguire operazioni di regressione simili in ArcGIS Pro con lo strumento di geoprocessing Regressione lineare generalizzata come parte della casella degli strumenti di Statistiche spaziali.

Creare modelli e previsioni utilizzando un adattamento dell'algoritmo della foresta causale di Leo Breiman in ArcGIS Pro con lo strumento di geoprocessing Classificazione e regressione basate sulla foresta come parte della casella degli strumenti di Statistiche spaziali.

Eseguire GWR in ArcGIS Pro con lo strumento di geoprocessing Regressione geografica verificata come parte della casella degli strumenti di Statistiche spaziali.