Skip To Content

Trouver des points aberrants

Trouver des points aberrantsL'outil Trouver des points aberrants détermine si le modèle spatial de vos données présente des points aberrants statistiquement significatifs.

Diagramme de workflow

Diagramme de workflow de l'outil Trouver des points aberrants

Exemples

  • Où se trouvent les modèles de dépense anormaux à Los Angeles ?
  • Où se trouvent les frontières les plus nettes entre la richesse et la pauvreté dans la zone d'étude ?
  • Dans votre zone, certains points de vente connaissent-ils des ventes faibles alors qu'ils sont entourés de points de vente très performants ?
  • Où les taux anormalement élevés de diabète sont-ils localisés dans la zone d'étude ?
  • Est-ce que certains comtés des Etats-Unis présentent une espérance de vie inhabituellement faible par rapport à leurs voisins ?

Remarques sur l'utilisation

Les entités en entrée peuvent être des points ou des surfaces.

Le paramètre Trouver des points aberrants permet d'évaluer la disposition spatiale de vos entités. Si vos entités sont des surfaces, un champ doit être sélectionné. Les points aberrants sont déterminés en utilisant les nombres contenus dans le champ sélectionné. Les entités ponctuelles peuvent être analysées grâce à un champ ou à l'option Nombre de points. Si l'option Nombre de points est utilisée, l'outil détermine si les points même sont dispersés de manière inhabituelle ou agrégés, plutôt que si des grappes de valeurs élevées et faibles sont présentes.

Si des points sont en cours d'analyse avec Nombre de points, deux autres options seront disponibles. Le paramètre Comptabiliser les points dans permet d'agréger des points dans une Grille de quadrillage, une Grille hexagonale ou une couche de zones à partir de votre Contenu, par exemple des comtés ou des codes postaux. Le paramètre Définir où des points sont possibles permet de créer une ou plusieurs zones d'intérêt. Les trois options de ce paramètre sont Aucun, ce qui signifie que tous les points sont utilisés, qu'une zone est définie par une couche de zones provenant de votre Contenu et que des zones sont créées avec l'outil Dessiner.

Vous pouvez normaliser vos données en utilisant le paramètre Diviser par. Les données Population Esri utilisent l'Enrichissement géographique et entraînent la consommation de crédits. Une autre option consiste à normaliser en utilisant un champ provenant de la couche en entrée. Certaines valeurs possibles pouvant être utilisées pour la normalisation sont le nombre de foyers ou la zone.

Les statistiques employées par cet outil utilisent les permutations pour déterminer la probabilité de détecter la distribution spatiale réelle des valeurs que vous analysez en comparant vos valeurs à un ensemble de valeurs générées de manière aléatoire. Le choix du nombre de permutations dans le paramètre Optimiser pour doit faire l'objet d'un compromis entre précision et augmentation du temps de traitement (Vitesse). Il est possible d'utiliser un nombre moins élevé de permutations lors de la première exploration d'un problème, mais il est recommandé d'augmenter les permutations jusqu'à Précision pour les résultats finaux.

Vous pouvez utiliser le menu déroulant Options pour définir une Taille de cellule ou Canal de distance pour votre analyse.

La couche en sortie possèdera des champs supplémentaires contenant des informations telles que : Cluster/Outlier Type, nombre de voisins que chaque entité a inclus dans son analyse, Local Moran's I Index, Value et Score de chaque entité. La couche en sortie contient également des informations concernant l'analyse statistique dans la section Description de ses Détails des éléments.

Fonctionnement de l'outil Trouver des points aberrants

Puisque nos yeux et notre cerveau tentent naturellement de trouver des modèles même lorsqu'aucun n'existe, il peut être difficile de savoir si les modèles de vos données sont le résultat de processus spatiaux réels en cours ou s'ils découlent simplement du hasard. C'est pourquoi les chercheurs et les analystes utilisent des méthodes statistiques, telles que Trouver des points aberrants (Anselin Local Moran's I) pour quantifier les modèles spatiaux. La présence d'une agrégation ou de points aberrants statistiquement significatifs dans vos données permet d'obtenir des informations précieuses. Le fait de savoir où et quand les points aberrants et les agrégats se produisent peut fournir des indications importantes sur les processus qui favorisent les modèles auxquels vous assistez. Par exemple, savoir que le nombre de cambriolages résidentiels est plus élevé dans certains quartiers constitue une information clé si vous devez mettre en place des stratégies de prévention efficaces, allouer des ressources policières limitées, initier des programmes de surveillance de quartier, autoriser des enquêtes criminelles approfondies ou identifier des suspects potentiels.

L'outil Trouver des points aberrants calcule l'index Local Moran's (LMiIndex) de chaque entité d'un jeu de données. Une valeur positive de I indique qu'une entité est voisine d'entités présentant également des valeurs attributaires élevées ou faibles ; cette entité fait partie d'une grappe. Une valeur négative indique qu'une entité est voisine d'entités présentant des valeurs différentes ; cette entité est une valeur aberrante. Dans les deux cas, la valeur p de l'entité doit être assez basse pour que la grappe ou la valeur aberrante soit considérée comme statistiquement significative. Pour plus d'informations sur la définition de la signification statistique, reportez-vous à la rubrique Qu'est-ce qu'un score z ? Qu'est-ce qu'une valeur de p ? Notez que l’index Local Morans I (I) est une mesure relative et qu’il ne peut être interprété que dans le contexte de son score z calculé ou de sa valeur p calculée. Le champ Cluster/Outlier Type (COType) fait la distinction entre un agrégat statistiquement significatif de valeurs élevées (HH), un agrégat de valeurs faibles (LL), un point aberrant dans lequel une valeur élevée est entourée principalement de valeurs faibles (HL) et un point aberrant dans lequel une valeur faible est entourée principalement de valeurs élevées (LH).

Analyser les entités surfaciques

Une quantité importante de données est disponible pour les entités surfaciques telles que les secteurs de recensement, les comtés, les circonscriptions électorales, les secteurs hospitaliers, les parcelles, les limites de parcs et de zones de loisirs, les bassins versants, les classifications d'occupation du sol et les zones climatiques. Lorsque votre couche d'analyse contient des entités surfaciques, vous devez définir un champ numérique qui sera utilisé pour rechercher des points aberrants de valeurs élevées et faibles. Ce champ peut représenter les éléments suivants :

  • Des nombres (par exemple, le nombre de ménages)
  • Des taux (par exemple, la proportion de la population détentrice d'une licence universitaire)
  • Des moyennes (par exemple, le revenu moyen ou médian des ménages)
  • Des indices (par exemple, un score indiquant si les dépenses des ménages en équipement sportif se situe en-deçà ou au-delà de la moyenne nationale)

Grâce au champ que vous fournissez, l'outil Trouver des points chauds crée une carte (la couche de résultat) qui montre les zones présentant des points aberrants statistiquement significatifs de valeurs élevées (rouges) et de valeurs faibles (bleus), ainsi que des agrégats de valeurs élevées (roses) et de valeurs faibles (bleu clair).

Analyser les entités ponctuelles

Diverses données sont disponibles comme entités ponctuelles. Parmi les exemples d'entités fréquemment représentées par des points, citons les incidents criminels, les écoles, les hôpitaux, les appels d'urgence, les accidents de la route, les puits d'eau, les arbres et les bateaux. Vous pouvez souhaiter analyser des valeurs de données (champ) associées à chaque entité ponctuelle. Dans d'autres cas, vous vous intéressez uniquement à l'évaluation des grappes ou à la dispersion des points. La décision de fournir ou non un champ dépend de la question que vous posez.

Rechercher des points aberrants de valeurs élevées et faibles associées à des entités ponctuelles

Analyse de points avec un champ d'analyse Vous pouvez fournir un champ d'analyse pour répondre à des questions telles que « Où les valeurs anormalement élevées et faibles s'agrègent-elles ? » Le champ que vous sélectionnez peut représenter certains des éléments suivants :

  • Des nombres (par exemple le nombre d'accidents de circulation aux intersections de rues)
  • Des taux (par exemple, le chômage urbain, où chaque ville est représentée en tant qu'entité ponctuelle)
  • Des moyennes (par exemple, le résultat moyen des écoles)
  • Des indices (par exemple, de satisfaction des clients pour les concessions automobiles à travers le pays)

Rechercher des points aberrants de nombres de points élevées et faibles

Points d'analyse sans champ d'analyseDans le cas de certaines données ponctuelles, généralement lorsque chaque point représente un événement, un incident ou une indication de présence/absence, il n'existe pas de champ d'analyse qui coule de source. Vous pouvez souhaiter savoir où l'agrégation est inhabituellement (statistiquement significative) intense ou faible. Pour cette analyse, les entités surfaciques (une grille de quadrillage ou hexagonale que l'outil crée ou une couche de surface que vous fournissez) sont placées par dessus les points et le nombre de points dans chaque surface est compté. L'outil recherche ensuite des points aberrants de nombres de points élevées et faibles associées à chaque entité surfacique.

Définir où des points sont possibles

Points sans champ d'analyse, zone d'étude délimitante Spécifiez une couche surfacique ou dessinez des zones définissant une zone d'étude dans laquelle vous souhaitez que l'analyse soit effectuée dans tous les emplacements où les entités ponctuelles d'incidents peuvent se produire. Pour cette option, l'outil Trouver les points aberrants superpose sur votre zone d'étude définie une grille de quadrillage (par défaut) ou une grille hexagonale et compte les points se trouvant dans chaque cellule de grille. Si vous n'indiquez pas par cette option où les points d'incidents peuvent se trouver, l'outil Trouver les points aberrants analyse uniquement les cellules de grille qui contiennent au moins un point. Lorsque vous utilisez cette option pour définir où les points peuvent se trouver, l'analyse est effectuée sur tous les cellules de grille se trouvant dans les zones délimitées que vous définissez.

Compter les points au sein de vos propres zones d'agrégation

Points sans champ d'analyse, zone d'agrégationDans certains cas, les entités surfaciques telles que les secteurs de recensements, les secteurs de police ou les parcelles ont plus de sens pour l'analyse que la grille de quadrillage ou hexagonale par défaut.

Choisir l'option de division

Normalisation de votre jeu de données Il existe deux méthodes courantes d'identification des points aberrants :

  • Par nombre : lorsque vous analysez un jeu de données particulier, vous pouvez souhaiter trouver les points aberrants du nombre d'entités au sein de chaque zone d'agrégation de votre zone d'étude. Vous pouvez, par exemple, souhaiter trouver les points aberrants dans lesquels le plus grand nombre de délits a été perpétré dans des zones généralement à faible criminalité ou les points froids dans lesquels le plus faible nombre de délits est survenu dans des zones à forte criminalité, afin d'optimiser les effets des ressources allouées.
  • Par intensité : il peut s'avérer utile d'analyser et de comprendre les modèles en tenant compte des répartitions sous-jacentes qui ont une incidence sur un phénomène particulier. C'est ce que l'on appelle souvent la normalisation, soit le processus de division d'une valeur attributaire numérique par une autre valeur afin de réduire les différences de valeurs selon la taille des surfaces ou le nombre d'entités de chaque surface. Par exemple, dans le cas de la criminalité, vous pouvez souhaiter connaître la répartition des points aberrants ou grappes de forts et faibles taux de criminalité en tenant compte de la population sous-jacente. Dans ce cas, vous comptez le nombre de délits dans chaque zone (que cette zone soit un maillage ou un jeu de données surfacique différent) et divisez ce total par la population totale de la zone. Cela donne un taux de criminalité, soit le nombre de délits par personne. La recherche de zones de points aberrants de criminalité par personne répond à une question différente qui permet également de prendre des décisions avisées.

Les deux façons d'analyser les données au sein de votre zone d'analyse sont valides. Tout dépend de la question que vous posez.

Le choix de l'attribut adéquat en fonction duquel effectuer la division est très important. Vous devez vous assurer que l'attribut Diviser par est un attribut qui a une incidence dans les faits sur la répartition d'un phénomène donné que vous analysez.

Lorsque vous sélectionnez l'option Diviser par Population Esri, les données relatives à la population issues de EsriDemographics Global Coverage sont utilisées. Vérifiez la résolution des données disponibles pour la zone qui vous intéresse, afin de vous assurer qu'elle est compatible avec la taille des zones en cours d'enrichissement (soit des zones d'agrégation que vous fournissez soit des carrés de quadrillage en cours de création).

Interpréter les résultats

La sortie de l'outil Trouver les points aberrants est une carte. En ce qui concerne les points ou les zones sur cette carte de couches de résultat, les rouge foncé et bleu foncé indiquent des points aberrants statistiquement significatifs dans la zone d'étude. Les bleu clair et roses désignent des grappes statistiquement significatives. Les points ou surfaces qui s'affichent en beige, d'un autre côté, ne sont pas des points aberrants ou ne font pas partie d'une grappe statistiquement significative. Le modèle spatial associé à ces entités pourrait très bien être le fruit du hasard. Il peut arriver que les résultats de votre analyse n'indiquent aucun point aberrant ou aucune grappe statistiquement significative. Ces informations sont importantes. Lorsqu'un motif spatial est aléatoire, vous n'avez aucune indication des causes sous-jacentes. Dans ce cas, toutes les entités de la couche de résultat apparaissent en beige. Cependant, lorsque vous détectez des points aberrants une agrégation statistiquement significative, ces emplacements sont des indications importantes quant à l'origine du phénomène. Par exemple, la recherche de points spatiaux aberrants statistiquement significatives de taux de cancers élevés associés à certaines toxines présentes dans l'environnement, par exemple, peut contribuer à la mise en place de stratégies et de campagnes de protection de la population. Pareillement, la recherche de points aberrants faibles d'obésité infantile associée à des programmes d'incitation à la pratique extra-scolaire de sport peuvent inciter à la création de ce type de programmes.

Dépanner

La méthode statistique utilisée par l'outil Trouver des points aberrants repose sur la loi des probabilités et, par conséquent, nécessite un nombre minimal d'entités pour être efficace. Cette méthode statistique requiert également différents nombres ou valeurs de champ d'analyse. Si vous analysez les délits par secteur de recensement, par exemple, et que vous obtenez exactement le même nombre de délits dans chaque secteur, l'outil ne peut pas fonctionner. Le tableau suivant offre une explication des messages susceptibles d'apparaître lorsque vous utilisez l'outil Trouver des points aberrants :

Envoyer un messageProblèmeSolution

Les options d'analyse que vous avez sélectionnées requièrent un minimum de 60 points pour calculer les points chauds et froids.

Votre couche d'analyse des points ne comporte pas assez d'entités ponctuelles pour parvenir à des résultats fiables.

La solution la plus évidente consiste à ajouter des points à votre couche d'analyse.

Vous pouvez également définir des zones d'analyse adjacentes et ajouter ainsi des informations sur l'endroit où des points auraient pu se produire. Cette méthode nécessite un minimum de 30 points.

Vous pouvez également fournir des zones d'agrégation qui superposent vos points. Vous aurez besoin d'un minimum de 30 zones surfaciques et de 30 points au sein de ces zones pour cette analyse.

Si vous possédez 30 points au moins, vous pouvez spécifier un champ d'analyse. Dans ce cas, la question n'est plus de savoir où se trouvent les nombres élevés et faibles de points, mais où les valeurs de champ d'analyse élevées et faibles s'agrègent spatialement.

Les options d'analyse que vous avez sélectionnées requièrent un minimum de 30 points avec des données valides dans le champ d'analyse afin de calculer les points chauds et froids.

Votre couche d'analyse ne comporte pas assez de points, ou pas assez de points associés à des valeurs de champ d'analyse autres que NULL, pour parvenir à des résultats fiables.

Malheureusement, si vous avez moins de 30 points, cette méthode d'analyse ne convient pas à vos données. Si vous avez plus de 30 points et que vous voyez ce message, le champ d'analyse que vous avez spécifié comporte peut-être des valeurs NULL. Les points comportant des valeurs de champ d'analyse NULL seront ignorés. Il est également possible qu'un filtre actif réduise le nombre de points disponibles pour l'analyse.

Les options d'analyse que vous avez sélectionnées requièrent un minimum de 30 polygones avec des données valides dans le champ d'analyse afin de calculer les points chauds et froids.

Votre couche d'analyse ne comporte pas assez de zones surfaciques, ou pas assez d'entités surfaciques associées à des valeurs de champ d'analyse autres que NULL, pour parvenir à des résultats fiables.

Malheureusement, si vous avez moins de 30 zones surfaciques, cette méthode d'analyse ne convient pas à vos données. Si vous avez plus de 30 zones et que vous voyez ce message, le champ d'analyse que vous avez spécifié comporte peut-être des valeurs NULL. Les zones surfaciques comportant des valeurs de champ d'analyse NULL seront ignorées. Il est également possible qu'un filtre actif réduise le nombre de zones surfaciques disponibles pour l'analyse.

L'option d'analyse que vous avez sélectionnée requiert un minimum de 30 points à l'intérieur des zones surfaciques d'emprise.

Seuls les points qui se trouvent à l'intérieur des zones d'analyse d'emprise que vous dessinez ou fournissez sont analysés. Pour obtenir des résultats fiables, 30 points au moins doivent se trouver à l'intérieur des zones d'analyse d'emprise.

Malheureusement, si vous n'avez pas 30 points au moins, cette méthode ne convient pas à vos données. Avec un minimum de 30 entités toutefois, la solution consiste souvent dans ce cas à indiquer des zones d'analyse d'emprise différentes, voire plus grandes.

Vous pouvez également fournir une couche surfacique avec un minimum de 30 polygones d'agrégation qui superposent au moins 30 de vos points. Lorsque vous fournissez les zones d'agrégation, l'analyse est réalisée sur le nombre de points au sein de chaque zone.

L'option d'analyse que vous avez sélectionnée requiert un minimum de 30 points à l'intérieur des polygones d'agrégation.

Seuls les points qui se trouvent à l'intérieur des polygones d'agrégation sont inclus dans l'analyse. Pour obtenir des résultats fiables, 30 points au moins doivent se trouver à l'intérieur des zones surfaciques que vous fournissez.

Malheureusement, si vous n'avez pas 30 points au moins, cette méthode ne convient pas à vos données. Sinon, vous devez dessiner ou fournir des zones d'analyse d'emprise qui superposent au moins 30 de vos points. Les zones d'emprise doivent refléter tous les emplacements où les points sont susceptibles de se produire.

L'option d'analyse que vous avez sélectionnée requiert un minimum de 30 zones d'agrégation.

L'option que vous avez sélectionnée permet de superposer les zones d'agrégation par dessus vos points, puis de comptabiliser les points qui se trouvent au sein de chaque zone. Un minimum de 30 (30 zones) est nécessaire pour parvenir à des résultats fiables.

Des résultats fiables peuvent être obtenus si vous fournissez un minimum de 30 points se trouvant au sein d'un minimum de 30 zones d'agrégation. Si vous n'avez pas 30 zones d'agrégation, vous pouvez dessiner ou fournir des zones d'analyse d'emprise superposant au moins 30 de vos points. Ces zones d'emprise doivent refléter tous les emplacements où les points sont susceptibles de se produire.

Les points chauds et froids ne peuvent pas être calculés si le nombre de points dans chaque zone surfacique est identique. Essayez différentes zones surfaciques ou différentes options d'analyse.

Lorsque l'outil Trouver des points chauds a comptabilisé le nombre de points au sein de chaque zone surfacique, il a trouvé que les nombres étaient identiques. Pour générer des résultats, cet outil requiert un degré minimal de variation dans les nombres obtenus.

Vous pouvez fournir d'autres zones d'agrégation afin que toutes les zones n'aient pas le même nombre de points exactement.

Au lieu des zones d'agrégation, vous pouvez également dessiner ou fournir des zones d'analyse d'emprise.

Vous pouvez spécifier un champ d'analyse. Toutefois, dans ce cas la question n'est plus de savoir où se trouvent les nombres élevés et faibles de points, mais où les valeurs de champ d'analyse élevées et faibles s'agrègent spatialement.

La variation est insuffisante dans les emplacements des points pour calculer les points chauds et froids. Les points coïncidents, par exemple, réduisent la variation spatiale. Vous pouvez essayer de fournir une zone d'emprise, des zones d'agrégation (30 au minimum) ou un champ d'analyse.

En fonction du nombre de points et de leur répartition, l'outil crée une grille pour superposer vos points. Après avoir comptabilisé le nombre de points qui se trouvent au sein de chaque carré du quadrillage et avoir supprimé les carrés dont le nombre de points est nul, il restait moins de 30 carrés. Cet outil requiert un minimum de 30 (30 carrés) pour parvenir à des résultats fiables.

Si vos points occupent très peu d'endroits uniques (s'il y a beaucoup de points coïncidents), il est recommandé de fournir des zones d'agrégation qui superposent vos points, ou de dessiner ou fournir des zones d'analyse d'emprise indiquant où les points peuvent ou non se produire.

Vous pouvez également spécifier un champ d'analyse. Toutefois, dans ce cas la question n'est plus de savoir où se trouvent les nombres élevés et faibles de points, mais où les valeurs de champ d'analyse élevées et faibles s'agrègent spatialement.

La variation est insuffisante parmi les points au sein des zones surfaciques d'emprise. Vous pouvez essayer de fournir des limites plus vastes.

En fonction des emplacements des points et du nombre de points, l'outil crée une grille pour superposer vos points. Après avoir comptabilisé le nombre de points qui se trouvent au sein de chaque carré du quadrillage et avoir supprimé les carrés qui se trouvent à l'extérieur de vos zones d'analyse d'emprise, il restait moins de 30 carrés de quadrillage. Cet outil requiert un minimum de 30 (30 carrés) pour parvenir à des résultats fiables.

Si vos points se trouvent à différents emplacements à l'intérieur des zones d'analyse d'emprise, vous pouvez peut-être simplement créer ou fournir des limites plus vastes. Si vos points occupent très peu d'endroits uniques (s'il y a beaucoup de points coïncidents), il est recommandé de fournir des zones d'agrégation qui superposent vos points.

Vous pouvez également spécifier un champ d'analyse. Toutefois, dans ce cas la question n'est plus de savoir où se trouvent les nombres élevés et faibles de points, mais où les valeurs de champ d'analyse élevées et faibles s'agrègent spatialement.

Toutes les valeurs de votre champ d'analyse sont probablement les mêmes. Les points chauds et froids ne peuvent pas être calculés si le champ en cours d'analyse ne présente aucune variation.

Il est probable que vous avez spécifié un champ d'analyse contenant la même valeur pour tous vos points ou entités surfaciques dans la couche d'analyse. La statistique utilisée par cet outil ne peut pas effectuer de résolution si les valeurs sont identiques.

Vous pouvez spécifier un champ d'analyse différent ou, pour les entités ponctuelles, des densités ponctuelles d'analyseau lieu de valeurs ponctuelles.

Nous n'avons pas pu calculer les points chauds et froids pour les données fournies. Le cas échéant, essayez de spécifier un champ d'analyse.

Même si cela est peu probable, lorsque l'outil a créé une grille et comptabilisé le nombre de points au sein de chaque carré, les nombres pour tous les carrés étaient identiques.

La solution consiste alors à fournir vos propres zones d'agrégation, à dessiner ou fournir des zones d'analyse d'emprise ou à spécifier un champ d'analyse.

La taille de cellule doit être inférieure au canal de distance.

Vous avez indiqué une valeur de canal de distance inférieure à la taille de chaque cellule de grille.

Vérifiez les unités spécifiées pour Canal de distance et Taille de cellule, utilisez la valeur par défaut calculée par l'outil ou utilisez une valeur supérieure à la taille d'une cellule de grille.

Vous trouverez des informations complémentaires concernant les algorithmes utilisés par l'outil Trouver des points aberrants dans Fonctionnement de l'analyse de points aberrants optimisée.

Outils semblables

L'outil Trouver des points aberrants permet de déterminer si le modèle spatial de vos données présente des points aberrants statistiquement significatifs. D'autres outils susceptibles d'être utiles sont présentés ci-après.

Outils d'analyse Map Viewer

Si vous souhaitez rechercher des grappes statistiquement significatives de valeurs élevées et faibles dans le modèle spatial de vos données, utilisez l'outil Trouver des points chauds.

Si vous utilisez des mesures de points ou de lignes pour créer une carte de densité, faites appel à l'outil Calculer la densité.

outils d’analyse de ArcGIS Pro

L'outil Trouver des points aberrantsexécute les mêmes statistiques que celles utilisées dans les outils Analyse de grappes et de valeurs aberrantes (Anselin Local Moran's I) et Analyse de points aberrants optimisée.