Skip To Content

Trova outlier

Trova outlier Lo strumento Trova outlier consente di determinare la presenza di outlier statisticamente rilevanti nel modello spaziale dei dati.

Diagramma del Workflow

Diagramma del flusso di lavoro Trova outlier

Esempi

  • Dove si trovano i modelli di spesa anomali a Los Angeles?
  • Dove si trovano i confini più netti tra affluenza e povertà in un'area di studio?
  • Nella propria area ci sono negozi con vendite basse nonostante siano circondati da negozi con fatturato più elevato?
  • Dove si trovano tassi di diabete inaspettatamente elevati nell'area di studio?
  • Ci sono contee negli Stati Uniti con aspettativa di vita insolitamente bassa rispetto alle loro contee vicine?

Note sull'utilizzo

Le feature di input possono essere puntuali o areali.

Il parametro Trova outlier di è utilizzato per valutare la disposizione spaziale delle feature. Se le feature sono aree, occorre scegliere un campo. Gli outlier verranno determinati utilizzando i numeri nel campo scelto. Le feature punto possono essere analizzate utilizzando un campo o l'opzione Conteggi punti. Se si utilizza Conteggi punto, lo strumento determinerà se i punti stessi sono insolitamente dispersi o raggruppati in cluster, anziché essere cluster di valori di campo alti e bassi.

Se è in corso l'analisi dei punti con Conteggi punti, saranno disponibili due opzioni aggiuntive. Il parametro Calcolare i punti all'interno consente di aggregare i punti all'interno di una Griglia Fishnet, una Griglia esagonale o un layer di aree da Contenuti, ad esempio contee o CAP. Il parametro Definisci dove sono possibili i punti viene utilizzato per creare una o più aree di interesse. Le tre opzioni per questo parametro sono Nessuno, ovvero vengono utilizzati tutti i punti, un'area definita da un layer di area da Contenuti e aree create utilizzando lo strumento Disegna.

I dati possono essere normalizzati utilizzando il parametro Suddividi per. I dati Popolazione Esri utilizzano il servizio GeoEnrichment e richiedono l'utilizzo di crediti. Un'altra opzione è normalizzare utilizzando un campo da un layer di input. Alcuni valori che possono essere utilizzati per la normalizzazione includono il numero di unità abitative o l'area.

Le statistiche impiegate da questo strumento utilizzano le permutazioni per determinare la probabilità di individuazione della distribuzione spaziale reale dei valori che si stanno analizzando confrontando i propri valori con un set di valori generati in modo casuale. La scelta del numero di permutazioni nel parametro Ottimizza per deve essere equilibrata tra Precisione e il tempo di elaborazione incrementato (Velocità). È possibile utilizzare un numero minore di permutazioni nella prima analisi di un problema, ma si consiglia di incrementare le permutazioni fino a Precisione per i risultati finali.

Il menu a discesa Opzioni può essere utilizzato per impostare una Dimensione cella o una Banda di distanza specifica per l'analisi.

Il layer di output avrà dei campi aggiuntivi che contengono informazioni come Cluster/Outlier Type, il numero di vicini che ogni feature ha incluso nell'analisi e Local Moran's I Index, Value e Score per ciascuna feature. Il layer di output contiene anche informazioni sull'analisi statistica nella sezione Descrizione dei relativi Dettagli elemento.

Come funziona Trova outlier

Dal momento che i nostri occhi e il nostro cervello cercano naturalmente di trovare modelli anche se non esistono, può risultare difficile sapere se i modelli presenti nei dati sono il risultato di processi spaziali reali o semplicemente il risultato di una casualità. È per questo motivo che ricercatori e analisti utilizzano metodi statistici, come Trova outlier (I di Anselin Local Moran) per quantificare modelli spaziali. L'individuazione di cluster o outlier di rilevanza statistica nei dati consente di disporre di informazioni importantissime. Sapere dove e quando si verificano gli outlier e i cluster può offrire indizi importanti sui processi che portano alla creazione dei modelli visualizzati. Sapere, ad esempio, che il numero di furti in appartamento è particolarmente elevato in un determinato quartiere è essenziale per definire adeguate strategie di prevenzione, allocare risorse di polizia inadeguate, predisporre programmi di sorveglianza del quartiere, autorizzare investigazioni approfondite sui reati o identificare potenziali sospetti.

Lo strumento Trova outlier consente di calcolare un indice di Local Moran (LMiIndex) per ciascuna feature in un dataset. Un valore positivo indica che una feature ha feature contigue con valori ugualmente alti o bassi di attributi; questa feature fa parte di un cluster. Un valore negativo indica che una feature ha feature contigue con valori diversi; questa feature è un outlier. In entrambi i casi, per essere considerato statisticamente rilevante, il valore P della feature deve essere sufficientemente piccolo per il cluster o l'outlier. Per ulteriori informazioni sulla definizione di rilevanza statistica, vedere Cos'è un punteggio Z? Che cos'è un valore P?. Notare che l'indice I di Moran Local (I) è una misura relativa e può essere interpretato sono nel contesto del relativo punteggio Z o valore P calcolato. Il campo Cluster/Outlier Type (COType) distingue tra un cluster di rilevanza statistica di valori alti (HH), un cluster di valori bassi (LL), un outlier in cui un valore alto è circondato principalmente da valori bassi (HL) e da un outlier in cui un valore basso è circondato principalmente da valori alti (LH).

Analizzare le feature areali

Per le feature area, ad esempio sezioni di spoglio, province, distretti elettorali, aree ospedaliere, particelle, confini di parchi e aree ricreative, spartiacque, classificazioni di coperture del suolo e zone climatiche, è disponibile una notevole quantità di dati. Quando il layer di analisi contiene feature area, è necessario specificare un campo numerico che sarà impiegato per trovare outlier di valori alti e bassi. Il campo di analisi potrebbe rappresentare quanto segue:

  • Conteggi, ad esempio il numero di nuclei familiari
  • Percentuali, ad esempio la percentuale della popolazione che ha conseguito una laurea
  • Medie, ad esempio la media o la mediana del reddito familiare
  • Indici, ad esempio un indice indicante se la spesa delle famiglie in articoli sportivi è superiore o inferiore alla media nazionale

Con il campo specificato, lo strumento Trova outlier creerà una mappa (il layer di risultati) indicante le aree con outlier di rilevanza statistica di valori alti (rossi) e valori bassi (blu), nonché cluster di valori alti (rosa) e valori bassi (azzurro).

Analizzare le feature puntuali

Le feature puntuali includono un'ampia varietà di dati. Alcuni esempi di feature rappresentate il più delle volte come punti includono reati, scuole, ospedali, eventi con chiamate di emergenza, incidenti stradali, pozzi, alberi e imbarcazioni. È possibile che a volte si sia interessati ad analizzare i valori di dati (un campo) associati a ogni feature puntuale. In altri casi, si potrebbe essere interessati solo a valutare il clustering o la dispersione dei punti stessi. La decisione se fornire o meno un campo dipende dalla domanda che ci si pone.

Trovare outlier con valori alti e bassi associati a feature punto

Analizzare i punti con un campo di analisi È opportuno specificare un campo di analisi per rispondere a domande quali "Dove si trovano i valori alti e bassi anomali?" Il campo selezionato può rappresentare alcuni dei seguenti:

  • Conteggi, ad esempio il numero di incidenti stradali che si verificano agli incroci
  • Percentuali, ad esempio il tasso di disoccupazione di una città, in cui la città viene rappresentata come feature puntuale
  • Medie, ad esempio la media dei voti assegnati alle verifiche di matematica in varie scuole
  • Indici, ad esempio l'indice di soddisfazione dei clienti nei confronti delle concessionarie di auto nella provincia

Trovare outlier di conteggi di punti alti e bassi

Analizzare i punti, nessun campo di analisi Per alcuni dati puntuali, solitamente quando ogni punto rappresenta un evento, un incidente o un'indicazione di presenza/assenza, non è disponibile alcun campo di analisi ovvio da utilizzare. In questi casi, si desidera solo identificare le aree in cui il clustering è insolitamente (con rilevanza statistica) concentrato o distribuito. Per questa analisi, le feature di area (una griglia fishnet o esagonale creata automaticamente dallo strumento o un layer di area specificato dall'utente) vengono inserite sui punti e viene calcolato il numero di punti che rientra in ogni area. Lo strumento trova quindi outlier con conteggi di punti alti e bassi per ogni feature di area.

Definisci dove sono possibili i punti

Punti, nessun campo di analisi, area di studio di confine Specificare un layer arele oppure disegnare aree che definiscono un'area di studio in cui si desidera che l'analisi venga eseguita in tutte le posizioni in cui potrebbero verificarsi le feature puntuali degli incidenti. Per questa opzione, lo strumento Trova outlier sovrapporrà all'area di studio definita una griglia fishnet (predefinita) o esagonale e conterrà i punti che rientrano in ogni cella della griglia. Se non si specificano le aree in cui sono possibili i punti di incidenti utilizzando questa opzione, lo strumento Trova outlier analizzerà solo le celle della griglia contenenti almeno un conteggio punti. Se invece si utilizza questa opzione per definire le aree in cui sono possibili i punti, l'analisi verrà eseguita per tutte le celle della griglia che rientrano nelle aree di confine definite.

Contare i punti all'interno delle proprie aree di aggregazione

Punti, nessun campo di analisi, aree di aggregazione In alcuni casi le feature area come sezioni di spoglio, ronde di polizia o particelle risultano molto più significative ai fini dell'analisi rispetto alla griglia fishnet o esagonale predefinita.

Scegliere di dividere per

Normalizzazione del dataset Vi sono due approcci comuni per identificare gli outlier:

  • Per conteggio: quando si analizza un particolare set di dati, spesso si desidera trovare outlier del numero di feature in ogni area di aggregazione nell'area di studio. Ad esempio, è possibile che si desideri trovare gli outlier in cui è avvenuto il più elevato numero di crimini nelle aree generalmente a bassa criminalità o quelli in cui si è verificato il numero più basso di crimini nelle aree a elevata criminalità al fine di ottimizzare l'effetto delle risorse allocate.
  • Per intensità: anche analizzare e comprendere schemi che tengano conto delle distribuzioni sottostanti che influiscono su un fenomeno specifico può essere importante. Questo concetto è spesso menzionato come normalizzazione o processo per cui si divide un valore numerico di attributo per un altro valore, al fine di minimizzare le differenze tra i valori in base alle dimensioni delle aree o al numero di feature per ogni area. Ad esempio, nel caso dei crimini, si potrebbe essere interessati a sapere dove si trovano gli outlier o i cluster con numeri alti e bassi di crimini che tengano conto della popolazione sottostante. In tal caso, è opportuno conteggiare i crimini in ogni area (sia che questa sia una griglia o un set di dati area diverso) e dividere il numero totale di crimini per la popolazione totale in quell'area. Così facendo si otterrebbe un tasso di criminalità o il numero di crimini pro capite. La ricerca delle aree di outlier di crimini pro capite risponde a una domanda diversa che permette ugualmente di prendere decisioni informate.

Entrambi i modi di analizzare i dati nell'area di studio sono validi; la scelta del metodo dipende dalla domanda che ci si è posti.

La scelta di un attributo adeguato in funzione del quale viene effettuata la divisione è molto importante. Occorre verificare che l'attributo Suddividi per sia un attributo che influenza effettivamente la distribuzione del fenomeno specifico che si sta analizzando.

Quando si sceglie Suddividi per Popolazione Esri, vengono usati i dati sulla popolazione tratti da Esri Demographics Global Coverage. Assicurarsi di controllare la risoluzione dei dati disponibili per l'area di interesse per garantire che sia compatibile con le dimensioni delle aree in cui saranno aggiunti dati (aree di aggregazione fornite dall'utente o riquadri della griglia creati).

Interpretare i risultati

L'output dello strumento Trova outlier è una mappa. Per i punti o le aree della mappa del layer dei risultati, quelli in rosso scuro o in blu scuro indicano outlier statisticamente rilevanti nell'area di studio. Quelli in blu chiaro e in rosa indicano cluster di rilevanza statistica. I punti o le aree visualizzate in beige, invece, non sono outlier né fanno parte di cluster di rilevanza statistica, pertanto è molto probabile che il modello spaziale associato a queste feature sia il risultato di una casualità. Talvolta i risultati dell'analisi indicano la totale assenza di outlier o cluster di rilevanza statistica. Questa informazione è importante. Se il modello spaziale è casuale, non sono disponibili indicazioni sulle cause sottostanti. In questi casi, tutte le feature del layer dei risultati saranno di colore beige. Tuttavia, quando vengono trovati outlier o cluster di rilevanza statistica, tali posizioni sono importanti indicazioni su ciò che potrebbe causare il fenomeno. Ad esempio, l'individuazione di outlier spaziali di rilevanza statistica di elevati tassi di casi di tumore associati a determinate tossine ambientali, può portare all'adozione di politiche e misure per proteggere la popolazione. Analogamente, se vengono trovati outlier con valori bassi di obesità infantile associati a scuole che promuovono programmi sportivi doposcuola, è possibile fornire una giustificazione efficace per incoraggiare una diffusione più ampia di questi programmi.

Risoluzione dei problemi

Il metodo statistico utilizzato dallo strumento Trova outlier è basato sulla teoria della probabilità e, pertanto, necessita di un numero minimo di feature per funzionare efficacemente. Questo metodo statistico richiede inoltre diversi valori di campo di analisi e conteggi. Se si stanno analizzando i reati per sezione di spoglio, ad esempio, e sorprendentemente risulta esattamente lo stesso numero di reati in ciascuna sezione di spoglio, lo strumento non è in grado di trovare una soluzione. Nella tabella che segue è riportata una spiegazione dei messaggi che possono essere visualizzati durante l'uso dello strumento Trova outlier.

MessaggioProblemaSoluzione

Per le opzioni di analisi selezionate, sono necessari almeno 60 punti per calcolare hot e cold spot.

Nel layer di analisi dei punti, il numero di feature non è sufficiente per ottenere risultati affidabili.

La soluzione ovvia è aggiungere più punti al layer di analisi.

In alternativa, è possibile provare a definire le aree di analisi di confine, quindi aggiungere le informazioni relative alle posizioni in cui i punti avrebbero potuto essere presenti ma non lo sono stati. Per utilizzare questo metodo, sono necessari almeno 30 punti.

È inoltre possibile provare a fornire aree di aggregazione sovrapposte ai punti. Per questa analisi, è necessario disporre di almeno 30 aree di poligono e 30 punti all'interno di tali aree.

Se si dispone di almeno 30 punti, è possibile specificare un campo di analisi. Di conseguenza, la domanda "dove sono presenti molti o pochi punti?" diventa "dove si raggruppano in cluster i valori alti e bassi di un campo di analisi?".

Per le opzioni di analisi selezionate, sono necessari almeno 30 punti con dati validi nel campo di analisi per calcolare hot e cold spot.

Nel layer di analisi, il numero di punti o di punti associati a valori di campo di analisi non NULL non è sufficiente per ottenere risultati affidabili.

Sfortunatamente, se si dispone di meno di 30 punti, questo metodo di analisi non è appropriato per i dati a disposizione. Se si dispone di più di 30 punti e si visualizza questo messaggio, è possibile che il campo di analisi specificato contenga valori NULL. I punti con valori di campo di analisi NULL vengono ignorati. È inoltre possibile che si disponga di un filtro attivo che riduce il numero di punti disponibili per l'analisi.

Per le opzioni di analisi selezionate, sono necessari almeno 30 poligoni con dati validi nel campo di analisi per calcolare hot spot e cold spot.

Nel layer di analisi, il numero di aree di poligono o di feature areali associate a valori di campo di analisi non NULL non è sufficiente per ottenere risultati affidabili.

Sfortunatamente, se si dispone di meno di 30 aree di poligono, questo metodo di analisi non è appropriato per i dati a disposizione. Se si dispone di più di 30 aree e si visualizza questo messaggio, è possibile che il campo di analisi specificato contenga valori NULL. Le aree di poligono con valori di campo di analisi NULL vengono ignorate. È inoltre possibile che si disponga di un filtro attivo che riduce il numero di aree di poligono disponibili per l'analisi.

Per l'opzione di analisi selezionata, è necessario che almeno 30 punti siano inclusi nelle aree di poligono di confine.

Verranno analizzati solo i punti che si trovano all'interno delle aree di analisi di confine disegnate o fornite. Per ottenere risultati affidabili, è necessario che almeno 30 punti siano all'interno delle aree di analisi di confine.

Sfortunatamente, se non si dispone di almeno 30 punti, questo metodo non è appropriato per i dati a disposizione. Con un minimo di 30 feature, spesso la soluzione consiste nel fornire aree di analisi di confine differenti, eventualmente di dimensioni maggiori.

Un'altra opzione potrebbe essere fornire un layer di area con almeno 30 poligoni di aggregazione sovrapposti ad almeno 30 punti. Quando si forniscono aree di aggregazione, l'analisi viene eseguita sul conteggio di punti all'interno di ciascuna area.

Per l'opzione di analisi selezionata, è necessario che almeno 30 punti siano all'interno dei poligoni di aggregazione.

Solo i punti che si trovano all'interno dei poligoni di aggregazione vengono inclusi nell'analisi. Per ottenere risultati affidabili, è necessario che almeno 30 punti siano all'interno delle aree di poligono fornite.

Sfortunatamente, se non si dispone di almeno 30 punti, questo metodo non è appropriato per i dati a disposizione; altrimenti è necessario disegnare o fornire aree di analisi di confine sovrapposte di almeno 30 punti. Le aree di confine devono riflettere tutte le posizioni in cui i punti potrebbero eventualmente essere presenti.

Per l'opzione di analisi selezionata, sono necessarie almeno 30 aree di aggregazione.

L'opzione selezionata consente di sovrapporre le aree di aggregazione ai punti e di calcolare il numero di punti che si trovano all'interno di ciascuna area. Per ottenere risultati affidabili, è necessario effettuare almeno 30 conteggi (30 aree).

Fornendo almeno 30 punti all'interno di almeno 30 aree di aggregazione è possibile ottenere risultati affidabili. Se non si dispone di 30 aree di aggregazione, è possibile provare a disegnare o fornire aree di analisi di confine sovrapposte ad almeno 30 punti. Queste aree di confine devono riflettere tutte le posizioni in cui i punti potrebbero eventualmente essere presenti.

Quando il numero di punti in ogni area di poligono è identico, non è possibile calcolare hot e cold spot. Provare a utilizzare aree di poligono differenti oppure opzioni di analisi differenti.

Quando lo strumento Trova hot spot ha calcolato il numero di punti all'interno di ciascuna area di aggregazione, i conteggi sono risultati tutti identici. Per calcolare i risultati, lo strumento richiede almeno una variazione minima nei valori di conteggio ottenuti.

È possibile fornire aree di aggregazione alternative affinché non risulti esattamente lo stesso numero di punti in tutte le aree.

Anziché le aree di aggregazione, è inoltre possibile provare a disegnare o fornire aree di analisi di confine.

In alternativa, è possibile specificare un campo di analisi. Di conseguenza, la domanda "dove sono presenti molti o pochi punti?" diventa "dove si raggruppano in cluster i valori alti e bassi di un campo di analisi?".

Nelle posizioni dei punti, la variazione non è sufficiente per calcolare hot e cold spot. Punti coincidenti, ad esempio, riducono la variazione spaziale. È possibile provare a fornire un'area di confine, aree di aggregazione (almeno 30) o un campo di analisi.

In base al numero di punti e al tipo di distribuzione, lo strumento crea una griglia per sovrapporli. Una volta effettuato il conteggio del numero di punti all'interno di ciascun riquadro della griglia e una volta rimossi i riquadri con conteggi nulli, sono rimasti meno di 30 riquadri. Questo strumento richiede almeno 30 conteggi (30 riquadri) per fornire risultati affidabili.

Se i punti occupano pochissime posizioni univoche (se vi sono molti punti coincidenti), una buona soluzione consiste nel fornire aree di aggregazione sovrapposte ai punti oppure disegnare e fornire aree di analisi di confine, indicando dove è possibile o meno che i punti siano presenti.

Un'altra opzione è specificare un campo di analisi. Di conseguenza, la domanda "dove sono presenti molti o pochi punti?" diventa "dove si raggruppano in cluster i valori alti e bassi di un campo di analisi?".

Variazione insufficiente tra i punti all'interno delle aree di poligono di confine. È possibile provare a fornire confini di dimensioni maggiori.

In base alle posizioni dei punti e al numero di punti, lo strumento crea una griglia per sovrapporli. Una volta effettuato il conteggio del numero di punti all'interno di ciascun riquadro della griglia e una volta rimossi i riquadri esterni alle aree di analisi di confine, sono rimasti meno di 30 riquadri della griglia. Questo strumento richiede almeno 30 conteggi (30 riquadri) per fornire risultati affidabili.

Se i punti si trovano in diverse posizioni all'interno delle aree di analisi di confine, è possibile che sia sufficiente disegnare o fornire confini di dimensioni maggiori. Se i punti occupano pochissime posizioni univoche (se vi sono molti punti coincidenti), una buona soluzione consiste nel fornire aree di aggregazione sovrapposte ai punti.

Un'altra opzione è specificare un campo di analisi. Di conseguenza, la domanda "dove sono presenti molti o pochi punti?" diventa "dove si raggruppano in cluster i valori alti e bassi di un campo di analisi?".

È probabile che tutti i valori del campo di analisi siano identici. Quando non vi è alcuna variazione nel campo che si sta analizzando, non è possibile calcolare hot e cold spot.

Molto probabilmente è stato specificato un campo di analisi che presenta lo stesso valore per tutti i punti o feature areali presenti nel layer di analisi. A meno che non vi siano diversi valori con cui lavorare, il tipo di statistica utilizzato da questo strumento non è in grado di trovare una soluzione.

È possibile specificare un campo di analisi differente o, per feature puntuali, analizzare densità punto anziché valori puntuali.

Impossibile calcolare hot e cold spot per i dati forniti. Se appropriato, provare a specificare un campo di analisi.

Sebbene sia abbastanza improbabile, quando lo strumento ha creato una griglia e ha calcolato il numero di punti all'interno di ciascun riquadro, i conteggi di tutti i riquadri sono risultati identici.

Le soluzioni potrebbero essere: fornire proprie aree di aggregazione, disegnare o fornire aree di analisi di confine oppure specificare un campo di analisi.

Il valore di Dimensione cella deve essere minore di Banda di distanza.

È stato fornito un valore di Banda di distanza che è inferiore alla dimensione di ciascuna cella della griglia.

Controllare le unità specificate sia per Banda di distanza che per Dimensione cella, utilizzare il valore predefinito calcolato dallo strumento o un valore che sia maggiore della dimensione di una singola cella della griglia.

Ulteriori informazioni sugli algoritmi utilizzati dallo strumento Trova outlier sono disponibili in Come funziona Analisi outlier ottimizzata.

Strumenti simili

Utilizzare Trova outlier per determinare la presenza di outlier statisticamente rilevanti nel modello spaziale dei dati. Altri strumenti che possono essere utili sono descritti di seguito.

Strumenti di analisi di Map Viewer

Se si è interessati a trovare cluster statisticamente rilevanti di valori alti e bassi nel modello spaziale dei dati, utilizzare lo strumento Trova hot spot.

Se si utilizzano misurazioni di punti o linee per creare una mappa di densità, utilizzare lo strumento Calcolo densità.

Strumenti di analisi di ArcGIS Pro

Trova outlier esegue la stessa statistica utilizzata negli strumenti Analisi Cluster e Outlier (I di Anselin Local Morans) e Analisi outlier ottimizzata.