Esegue Regressione ponderata geograficamente (GWR-Geographically Weighted Regression), che è una forma locale di regressione lineare utilizzata per modellare le relazioni spazialmente variabili.
Diagramma del Workflow
Analisi tramite GeoAnalytics Tools
L'analisi che usa GeoAnalytics Tools è in esecuzione usando l'elaborazione distribuita tramite più computer ArcGIS GeoAnalytics Server e punteggi. GeoAnalytics Tools e strumenti di analisi feature standard in ArcGIS Enterprise hanno diversi parametri e funzionalità. Per ulteriori informazioni sulle differenze, consultare Differenze tra gli strumenti di analisi delle feature.
Esempi
- La relazione tra livello di istruzione e reddito è coerente in tutta l'area di studio?
- Quali sono le variabili chiave che spiegano l'elevata frequenza degli incendi di boschi/foreste?
- Dove sono i distretti in cui i bambini ottengono punteggi elevati nei test? Quali caratteristiche sembrano essere associate? Dove è più importante ogni caratteristica?
Note sull'utilizzo
Questo strumento esegue Regressione ponderata geograficamente, una forma locale di regressione utilizzata per modellare le relazioni spazialmente variabili. Lo strumento GWR fornisce un modello locale della variabile o del processo che si sta tentando di comprendere o prevedere inserendo un'equazione di regressione su ogni feature nel dataset. Lo strumento Regressione ponderata geograficamente (GWR-Geographically Weighted Regression) crea queste equazioni separate incorporando le variabili dipendenti e descrittive delle feature nelle vicinanze di ciascuna feature di destinazione. La forma e l'estensione di ciascun quartiere analizzato si basano sull'input per il parametro Scegliere come stabilire il quartiere.
Lo strumento Regressione ponderata geograficamente (GWR-Geographically Weighted Regression) produce anche feature di output e diagnostica. I feature layer di output vengono automaticamente aggiunti alla mappa con uno schema di rendering applicato ai residui del modello. Di seguito viene fornita un’esauriente spiegazione di ogni output.
È prassi comune esplorare i dati a livello globale utilizzando lo strumento Regressione lineare generalizzata prima di esplorare i dati localmente utilizzando lo strumento GWR.
I parametri Scegliere il campo da modellare e Scegliere i campi esplicativi devono essere campi numerici contenenti una varietà di valori. Devono esservi variazioni in questi valori sia a livello globale che locale. Per questo motivo, non utilizzare variabili descrittive "fittizie" per rappresentare regimi spaziali diversi nel modello GWR (come assegnare un valore 1 a zone di censimento al di fuori del nucleo urbano, mentre a tutti gli altri viene assegnato un valore pari a 0). Poiché lo strumento GWR consente di variare i coefficienti delle variabili descrittive, tali variabili descrittive del regime spaziale non sono necessarie e, se incluse, creeranno problemi con la multicollinearità locale.
Nei modelli di regressione globale, come Regressione lineare generalizzata, i risultati non sono affidabili quando due o più variabili mostrano multicollinearità (quando due o più variabili sono ridondanti o insieme raccontano la stessa storia). Lo strumento GWR crea un'equazione di regressione locale per ogni funzione nel dataset. Quando i valori di una particolare variabile descrittiva si raggruppano spazialmente, è probabile che vi siano problemi con la multicollinearità locale. Il campo del numero di condizione (COND_ADG) nella feature class di output indica quando i risultati sono instabili a causa della multicollinearità locale. Come regola generale, diffidare dei risultati per le feature con un numero di condizione superiore a 30, pari a Null o, per gli shapefile, pari a -1.7976931348623158e+308.
Prestare attenzione quando si includono dati nominali o categorici in un modello GWR. Laddove le categorie si raggruppano spazialmente, esiste un forte rischio di incontrare problemi di multicollinearità locale. Il numero di condizione incluso nell'output GWR indica quando la collinearità locale è un problema (un numero di condizione inferiore a zero, superiore a 30 o impostato su Null). I risultati in presenza di multicollinearità locale sono instabili.
Un modello di regressione è erroneamente specificato se manca una variabile descrittiva chiave. L'autocorrelazione spaziale statisticamente significativa dei residui della regressione o la variazione spaziale imprevista tra i coefficienti di una o più variabili descrittive suggerisce che il modello non è specificato correttamente. Si deve compiere ogni sforzo (ad esempio, attraverso l'analisi dei residui GLR e l'analisi delle variazioni dei coefficienti GWR) per scoprire quali sono queste variabili chiave mancanti, in modo che possano essere incluse nel modello.
Chiedersi sempre se ha senso che una variabile descrittiva sia non stazionaria. Ad esempio, si supponga di modellare la densità di una particolare specie di pianta in funzione di diverse variabili tra cui ASPECT. Se si scopre che il coefficiente per la variabile ASPECT cambia nell'area di studio, probabilmente si stanno osservando prove di una variabile descrittiva chiave mancante (ad esempio, la prevalenza di vegetazione concorrente). Si deve compiere ogni sforzo per includere tutte le variabili descrittive chiave nel modello di regressione.
Gravi problemi di progettazione del modello o errori che indicano che le equazioni locali non includono un numero di vicini insufficiente spesso indicano un problema con la multicollinearità globale o locale. Per determinare dove si trova il problema, eseguire un modello globale utilizzando Regressione lineare generalizzata ed esaminare il valore VIF per ogni variabile descrittiva. Se alcuni dei valori VIF sono grandi (sopra 7.5, ad esempio), la multicollinearità globale sta impedendo la risoluzione del problema di GWR. Più probabilmente, tuttavia, il problema è la multicollinearità locale. Provare a creare una mappa tematica per ogni variabile descrittiva. Se la mappa rivela un clustering spaziale di valori identici, prendere in considerazione la rimozione di tali variabili dal modello o la combinazione di tali variabili con altre variabili descrittive al fine di aumentare la variazione di valore. Se, ad esempio, se si modellano i valori della casa e si dispone di variabili per camere da letto e bagni, si potrebbe desiderare combinare per aumentare la variazione di valore o rappresentarli come metri quadrati di bagno/camera da letto. Evitare di utilizzare variabili fittizie di regime spaziale, eseguire il clustering spaziale di variabili categoriche o nominali o utilizzare variabili con pochissimi valori possibili durante la creazione di modelli GWR.
Regressione ponderata geograficamente (GWR-Geographically Weighted Regression) è un modello lineare soggetto agli stessi requisiti di Regressione lineare generalizzata. Esaminare con cura la diagnostica descritta in Funzionamento di Regressione ponderata geograficamente per assicurarsi che il modello GWR sia specificato correttamente. Anche la sezione Come diventano imprecisi i modelli di regressione in Elementi di base dell'analisi della regressione contiene informazioni per garantire l'accuratezza del modello.
I parametri della variabile dipendente e della variabile descrittiva dovrebbero essere campi numerici contenenti un intervallo di valori. Questo strumento non può trovare una soluzione quando le variabili hanno gli stessi valori (ad esempio, se tutti i valori per un campo sono 9,0).
Le feature con uno o più valori null o valori di stringa vuoti nei campi di previsione o esplicativi saranno escluse dall'output. Se necessario, è possibile modificare i valori usando Calcola campo.
Si dovrebbero esaminare visivamente le sopra-previsioni e sotto-previsioni evidenti nei residui della regressione per vedere se è possibile ottenere indicazioni sulle possibili variabili mancanti dal modello di regressione.
Quando l'intercettazione, i coefficienti stimati, i valori previsti, i residui e i numeri delle condizioni sono null, è possibile che il modello ha un adattamento scadente. Ciò può essere valido per una o più feature nel modello e può essere causato dai seguenti motivi:
- Numero di vicini insufficiente. Le feature con meno di due vicini non dispongono di un adattamento del modello.
- Multicollinearità nel modello.
Nei casi precedenti, il modello deve essere valutato esaminando la diagnostica di output e potenzialmente rimontandolo con parametri e coefficienti diversi.
Output
Lo strumento Regressione ponderata geograficamente produce diversi output. Un riepilogo del modello GWR e riepiloghi statistici sono disponibili nella pagina di elemento del portale come risorsa nel proprio layer. Per accedere al riepilogo dei risultati, fare clic su Mostra risultati sotto al layer risultante in Map Viewer. Lo strumento genera un layer di output. Le feature di output vengono automaticamente aggiunte a Map Viewer con uno schema di rendering hot e cold applicato ai residui del modello. Le diagnostiche generate dipendono dal tipo di modello delle feature di input e sono descritte di seguito.
Continuo (Gaussiano)
Interpretare messaggi e diagnostiche
- AICc: AICc applica una correzione del valore di disturbo a AIC per piccole dimensioni campione. AICc si avvicina ad AIC quando il numero di feature nell'input aumenta.
- R2: R2 è una misura del grado di idoneità. Il suo valore varia da 0,0 a 1,0, dove valori più alti si preferiscono. Si può interpretare come la proporzione della varianza della variabile dipendente rappresentata dal modello di regressione. Il denominatore della computazione R2 è la somma dei valori della variabile dipendente. L’aggiunta di una variabile descrittiva aggiuntiva non altera il denominatore bensì altera il numeratore; questo dà l’impressione di un miglioramento nell’idoneità del modello che potrebbe non essere verosimile. Consultare R2 regolato di seguito.
Limitazioni
L'implementazione GeoAnalytics di Regressione ponderata geograficamente ha le seguenti limitazioni:
- Non è possibile prevedere un altro layer o creare layer di coefficienti raster.
- Non è possibile modellare una variabile binaria (logistica) o una variabile di conteggio (valore di Poisson).
- Non è possibile definire la ricerca di quartiere utilizzando Golden Search o Intervalli manuali.
Esempio ArcGIS API for Python
Lo strumento Regressione ponderata geograficamente è disponibile tramite ArcGIS API for Python.
Questo esempio trova relazioni per le vendite da negozi in tutto il paese.
# Import the required ArcGIS API for Python modules
import arcgis
from arcgis.gis import GIS
# Connect to your ArcGIS Enterprise portal and confirm that GeoAnalytics is supported
portal = GIS("https://myportal.domain.com/portal", "gis_publisher", "my_password", verify_cert=False)
if not portal.geoanalytics.is_supported():
print("Quitting, GeoAnalytics is not supported")
exit(1)
# Search for and list the big data file shares in your portal
search_result = portal.content.search("", "Big Data File Share")
# Look through the search results for the big data file share of interest
bdfs_search = next(x for x in search_result if x.title == "bigDataFileShares_SalesData")
# Look through the big data file share for 2018 sales
sales_2018 = next(x for x in bdfs_search.layers if x.properties.name == "2018_Sales")
# Run the GWR tool
gwr_result = arcgis.geoanalytics.analyze_patterns.gwr(input_layer = sales_2018,
explanatory_variables = "population, customers",
dependent_variable = "total_sales"
model_type = "Continuous",
neighborhood_type = "NumberOfNeighbors",
neighborhood_selection_method = "UserDefined",
number_of_neighbors = "100",
local_weighting_scheme = "BiSquare",
output_trained_name = "GWR_results")
# Visualize the results if you are running Python in a Jupyter Notebook
processed_map = portal.map()
processed_map.add_layer(gwr_result)
processed_map
Strumenti simili
Utilizzare lo strumento Regressione ponderata geograficamente di ArcGIS GeoAnalytics Server Geographically Weighted Regression per modellare le relazioni spazialmente variabili. Altri strumenti possono essere utili per la risoluzione di problemi simili ma leggermente diversi.
Strumenti di analisi di Map Viewer
Creare modelli lineari generalizzati e previsioni utilizzando lo strumento Regressione lineare generalizzata di ArcGIS GeoAnalytics Server.
Creare modelli e previsioni utilizzando lo strumento Classificazione e regressione basate sulla foresta di ArcGIS GeoAnalytics Server.
Strumenti di analisi di ArcGIS Desktop
Per eseguire questo strumento da ArcGIS Pro, il portale attivo deve essere Enterprise 10.8 o versione successiva. È necessario effettuare l'accesso utilizzando un account che ha privilegi per eseguire le analisi delle feature GeoAnalytics.
Eseguire operazioni di regressione simili in ArcGIS Pro con lo strumento di geoprocessing Regressione ponderata geograficamente come parte della casella degli strumenti di Statistiche spaziali.
Creare modelli e previsioni utilizzando un adattamento dell'algoritmo della foresta causale di Leo Breiman in ArcGIS Pro con lo strumento di geoprocessing Classificazione e regressione basate sulla foresta come parte della casella degli strumenti di Statistiche spaziali.