La herramienta Buscar valores atípicos determinará si hay algunos valores atípicos estadísticamente significativos en el patrón espacial de los datos.
Diagrama de flujo de trabajo
Ejemplos
- ¿Dónde encontramos patrones de gastos anómalos en Los Ángeles?
- ¿Dónde están los límites más nítidos entre prosperidad y pobreza en un área de estudio?
- En su área ¿hay tiendas que se enfrentan a bajas ventas a pesar de estar rodeados de tiendas con gran rendimiento?
- ¿Dónde hay tasas inesperadamente altas de diabetes en el área de estudio?
- ¿Hay condados en Estados Unidos con una esperanza de vida inusualmente baja en comparación con sus condados vecinos?
Notas de uso
Las entidades de entrada pueden ser puntos o áreas.
El parámetro Buscar valores atípicos de se usa para evaluar la organización espacial de las entidades. Si las entidades son áreas, debe elegirse un campo. Los valores atípicos se determinarán usando los números del campo elegido. Las entidades de puntos se pueden analizar usando un campo o la opción Recuentos de puntos. Si se usa Recuentos de puntos, la herramienta determinará si los propios puntos están anormalmente dispersos o agrupados, más que los valores de campo altos y bajos.
Si los puntos se están analizando con Recuentos de puntos, estarán disponibles dos opciones adicionales. El parámetro Recuentos de puntos permite que los puntos se agreguen dentro de una Cuadrícula de malla, Cuadrícula de hexágono o una capa de área de Contenido, como condados o códigos postales. El parámetro Definir ubicación posible de puntos se usa para crear un área o varias áreas de interés. Las tres opciones para este parámetro son Ninguna, que significa que se usan todos los puntos, un área definida por una capa de área de Contenido y áreas creadas usando la herramienta Dibujar.
Sus datos se pueden normalizar usando el parámetro Dividir por. Los datos de Población de Esri usan Geoenriquecimiento y requieren el uso de créditos. Otra opción es normalizar usando un campo de la capa de entrada. Entre los valores que se pueden usar para la normalización se incluyen el número de viviendas o el área.
La estadística empleada por esta herramienta usa permutaciones para determinar qué probabilidades habría de encontrar la distribución espacial real de los valores que está analizando mediante la comparación de los valores con un conjunto de valores generados de forma aleatoria. La elección del número de permutaciones en el parámetro Optimizar para es un equilibrio entre Precisión y tiempo de procesamiento aumentado (Velocidad). Se puede usar un número más bajo de permutaciones cuando se explora un problema por primera vez, pero la práctica recomendada es aumentar las permutaciones para conseguir Precisión en los resultados finales.
Puede utilizarse el menú desplegable Opciones para establecer un Tamaño de celda o una Banda de distancia específicos para el análisis.
La capa de salida tendrá campos adicionales que contienen información como el Tipo de cluster-valor atípico, el número de vecinos que cada entidad había incluido en su análisis y el Índice I de Moran local, Valor y Puntuación para cada entidad. La capa de salida también contiene información sobre el análisis estadístico en la sección Descripción de sus Detalles del elemento.
Cómo funciona Buscar valores atípicos
Debido a que nuestros ojos y cerebros tratan de forma natural de encontrar patrones incluso cuando no existen, puede ser difícil saber si los patrones de los datos son el resultado de procesos espaciales reales o simplemente el resultado de una probabilidad aleatoria. Esta es la razón por la que los investigadores y analistas usan métodos estadísticos como Buscar valores atípicos ( I Anselin local de Moran) para cuantificar patrones espaciales. Cuando encuentra valores atípicos estadísticamente significativos o clustering en los datos, dispone de una información valiosa. Saber dónde y cuándo los valores atípicos y las agrupaciones pueden proporcionar pistas importantes sobre los procesos que producen los patrones que se están viendo. Saber que los robos residenciales, por ejemplo, son por sistema más frecuentes en ciertas vecindades es una información vital si se tienen que diseñar estrategias de prevención eficaces, asignar recursos policiales escasos, iniciar programas de vigilancia vecinal, autorizar investigaciones criminales en profundidad o identificar sospechosos potenciales.
La herramienta Buscar valores atípicos calcula un Índice de Moran local (LMiIndex) para cada entidad del dataset. Un valor positivo indica que una entidad tiene entidades vecinas con valores de atributos igualmente altos o bajos; esta entidad es parte de un clúster. Un valor negativo indica que una entidad tiene entidades vecinas con valores diferentes; esta entidad es un valor atípico. En ambas instancias, el valor P para la entidad debe ser lo suficientemente pequeño para que el cluster o el valor atípico se consideren estadísticamente significativos. Para obtener más información sobre cómo determinar la significancia estadística, consulte ¿Qué es una puntuación z? ¿Qué es un valor P?. Tenga en cuenta que el índice I de Moran local (I) es una medida relativa y que solo se puede interpretar dentro del contexto de su puntuación z o valor P calculado. El campo Tipo de cluster-valor atípico (COType) distingue entre un clúster estadísticamente significativo de valores altos (HH) o un clúster de valores bajos (LL), un valor atípico en que un valor alto está rodeado principalmente de valores bajos (HL) y un valor atípico en que un valor bajo está rodeado principalmente de valores altos (LH).
Analizar entidades de área
Muchos de los datos están disponibles para entidades de área como distritos censales, condados, distritos de voto, regiones hospitalarias, parcelas, límites de parques y zonas de recreo, cuencas hidrográficas, clasificaciones de cobertura de suelo y áreas climáticas. Cuando la capa de análisis contenga entidades de área, deberá especificar un campo de numérico que se usará para encontrar valores atípicos de valores altos y bajos. Este campo podría representar:
- Recuentos (como el número de hogares)
- Tasas (como la proporción de población que tiene un título universitario)
- Medias (como la media o la mediana de ingresos por hogar)
- Índices (como el valor que indica si el gasto por hogar en artículos deportivos es superior o inferior a la media nacional)
Con el campo que ha proporcionado, la herramienta Buscar valores atípicos creará un mapa (la capa de resultados) que le muestra áreas con valores atípicos estadísticamente significativos de valores altos (en rojo) y valores bajos (en azul) así como agrupaciones de valores altos (en rosa) y valores bajos (en azul claro).
Analizar entidades de punto
Hay disponibles diversos datos como entidades de punto. Algunos ejemplos de entidades frecuentemente representadas como puntos son incidentes criminales, escuelas, hospitales, eventos de llamadas de emergencia, accidentes de tráfico, pozos de agua, árboles y embarcaciones. En ocasiones te puede interesar analizar valores de datos (un campo) asociados con cada entidad de puntos. En otros casos, quizá solo le interese evaluar la formación de agrupaciones o la dispersión de los propios puntos. La decisión de proporcionar o no un campo dependerá de la pregunta que se esté formulando.
Buscar valores atípicos de valores altos y bajos asociados con entidades de puntos
Seguramente querrá proporcionar un campo de análisis para responder a preguntas como: ¿Dónde hay valores altos y bajos anormales? El campo que seleccione podría representar alguna de las opciones siguientes:
- Recuentos (como el número de accidentes de tráfico en las intersecciones de calles)
- Tasas (como desempleo urbano, en la que cada ciudad se representa como una entidad de punto)
- Medias (como la nota media en los exámenes de matemáticas entre escuelas)
- Índices (como el índice de satisfacción del consumidor para concesionarios de coches en el país)
Buscar valores atípicos de recuentos de puntos altos y bajos
Para algunos datos de puntos, normalmente cuando cada punto representa un evento, incidente o indicación de presencia o ausencia, no habrá ningún campo de análisis obvio que se pueda usar. En estos casos, solo tienes que saber dónde se da una creación de clusters inusualmente intensa o escasa (estadísticamente significativa). Para este análisis, las entidades de área (una cuadrícula de malla o una cuadrícula de hexágono que la herramienta crea o una capa de área que usted proporciona) se sitúan sobre los puntos y se hace un recuento del número de puntos incluido dentro de cada área. La herramienta encuentra los valores atípicos de recuentos de puntos altos y bajos asociados con cada entidad de área.
Definir ubicación posible de puntos
Especifique una capa de área o dibuje áreas que definan un área de estudio si desea que el análisis se realice en todas las ubicaciones en las que podrían producirse entidades de puntos del incidente. Para esta opción, la herramienta Buscar valores atípicos superpondrá el área de estudio definida con una cuadrícula de malla (predeterminada) o de hexágono y el recuento de puntos que se encuentran dentro de cada celda de cuadrícula. Si no indica dónde son posibles los puntos de incidentes utilizando esta opción, la herramienta Encontrar valores atípicos solo analizará las celdas de cuadrícula que contengan al menos un punto. Sin embargo, cuando haga uso de esta opción para definir dónde son posibles los puntos, se hará el análisis de todas las celdas de cuadrícula que se encuentren en las áreas de límite que defina.
Contar puntos dentro de las áreas de agregación
En algunos casos, las entidades de área como distritos censales, distritos policiales o parcelas tendrán más sentido para el análisis que una cuadrícula de malla o de hexágono predeterminada.
Elegir dividir por
Hay dos enfoques habituales para identificar valores atípicos:
- Por recuento: cuando analiza un dataset concreto, normalmente lo que quiere es encontrar los valores atípicos del número de entidades de cada área de agregación del área de estudio. Por ejemplo, puede que quiera encontrar valores atípicos donde los números más altos de delitos se han cometido en áreas que por lo general tienen pocos delitos o donde los números más bajos de delitos se han cometido en áreas que por lo general tienen muchos delitos para potenciar al máximo el efecto de los recursos asignados.
- Por intensidad: analizar y comprender patrones que tienen en cuenta las distribuciones subyacentes que influyen en un fenómeno concreto también puede resultar interesante. Este concepto se denomina en muchos casos normalización o el proceso de dividir un valor de atributo numérico por otro para reducir las diferencias en los valores según el tamaño de las áreas o el número de entidades de cada área. Por ejemplo, si volvemos al ejemplo de los delitos, puede que quiera saber dónde están los valores atípicos del número de delitos mayor y menor que tienen en cuenta la población subyacente. En este caso, harías un recuento del número de delitos de cada área (si esa área área es una cuadrícula o un dataset de un área diferente) y dividir ese número total de delitos por la población total del área. Esto te proporcionaría un índice de criminalidad o el número de delitos per cápita. Encontrar las áreas de valores atípicos de los delitos per cápita responde a una pregunta diferente que también puede ayudar en la toma de decisiones.
Las dos formas de analizar los datos del área de estudio son válidas; la elección solo depende de la pregunta que se esté formulando.
La elección del atributo adecuado que se va a utilizar para dividir es muy importante. Debe asegurarse de que el atributo Dividir por es un atributo que influye, de hecho, en la distribución del fenómeno que se está analizando.
Cuando elige Dividir por Población de Esri, se usan los datos de población de Esri Demographics Global Coverage. Asegúrate de consultar la resolución de datos disponible para el área que te interesa para garantizar que sea compatible con el tamaño de las áreas que se están enriqueciendo (ya sean áreas de agregación que tú proporciones o cuadrados de la malla que se están creando).
Interpretar los resultados
El resultado de la herramienta Buscar valores atípicos es un mapa. En los puntos o las áreas de este mapa de capa de resultados, los que están en rojo oscuro y azul oscuro indican valores atípicos estadísticamente significativos en su área de estudio. Los que están en azul claro y rosa indican agrupaciones estadísticamente significativas. Por otro lado, los puntos o áreas que aparecen en color beis no son valores atípicos ni forman parte de ninguna agrupación estadísticamente significativa; el patrón espacial asociado con estas entidades podría muy bien ser resultado del azar. Algunas veces, los resultados del análisis indicarán que no hay valores atípicos ni agrupaciones estadísticamente significativos. Esta es información importante. Cuando un patrón espacial es aleatorio, no tendrá pista alguna sobre las causas subyacentes. En estos casos, todas las entidades de la capa de resultados aparecerán en beis. Sin embargo, cuando encuentra valores atípicos o agrupaciones estadísticamente significativos, esas ubicaciones son pistas importantes sobre los motivos que podrían haber generado el fenómeno. Por ejemplo, encontrar valores atípicos espaciales estadísticamente significativos de tasas de cáncer elevadas asociadas con determinadas toxinas medioambientales, puede promover políticas y medidas destinadas a proteger a la población. De un modo similar, encontrar valores atípicos bajos de obesidad infantil asociada con escuelas que fomentan programas de deporte extraescolar puede proporcionar una sólida justificación para promocionar este tipo de programas a escala más amplia.
Solución de problemas
El método estadístico utilizado por la herramienta Buscar valores atípicos se basa en la teoría de la probabilidad y, por consiguiente, es necesario un número mínimo de entidades para funcionar eficazmente. Este método estadístico también requiere varios recuentos o valores de campo de análisis. Si, por ejemplo, estás analizando delitos por distrito censal y por casualidad obtienes exactamente el mismo número de delitos en cada distrito, la herramienta no puede solucionar el problema. La tabla siguiente ofrece una explicación de los mensajes que se puede encontrar cuando usa la herramienta Buscar valores atípicos:
Mensaje | Problema | Solución |
---|---|---|
Las opciones de análisis que has seleccionado necesitan un mínimo de 60 puntos para poder calcular los puntos calientes y fríos. | No hay suficientes entidades de punto en tu capa de análisis de puntos para obtener unos resultados fiables. | La solución lógica es agregar más puntos a la capa de análisis. Como alternativa, puedes intentar definir áreas de análisis de límite y, a partir de aquí, agregar información sobre dónde habrían podido mostrarse los puntos. Para este método, necesitará como mínimo 30 puntos. También puedes proporcionar áreas de agregación que superpongan tus puntos. Para este análisis, necesitarás como mínimo 30 áreas poligonales y 30 puntos dentro de las áreas. Si cuenta con 30 puntos como mínimo, puede especificar un campo de análisis. Esto obliga a reformular la pregunta de ¿dónde se encuentran muchos o pocos puntos? a la pregunta ¿dónde se agrupan espacialmente los valores altos y bajos? |
Las opciones de análisis que has seleccionado necesitan un mínimo de 30 puntos con datos válidos en el campo de análisis para poder calcular los puntos calientes y fríos. | No hay suficientes puntos o suficientes puntos asociados con valores de campo de análisis que no sean NULL en la capa de análisis para calcular resultados fiables. | Lamentablemente, si tienes menos de 30 puntos, este método de análisis no es el adecuado para tus datos. Si tiene más de 30 puntos y aparece este mensaje, es posible que el campo de análisis que ha especificado tenga valores NULL. Los puntos con valores de campo de análisis NULL se omitirán. Otra posibilidad es que tenga activo un filtro que reduzca el número de puntos disponible para el análisis. |
Las opciones de análisis que ha seleccionado necesitan un mínimo de 30 polígonos con datos válidos en el campo de análisis para poder calcular los puntos calientes y fríos.. | No hay suficientes áreas de polígonos o suficientes entidades de área asociadas con valores de campo de análisis que no sean NULL en la capa de análisis para calcular resultados fiables. | Lamentablemente, si tienes menos de 30 áreas poligonales, este método de análisis no es el adecuado para tus datos. Si tiene más de 30 áreas y aparece este mensaje, es posible que el campo de análisis que ha especificado tenga valores NULL. Las áreas de polígono con valores de campo de análisis NULL se omitirán. Otra posibilidad es que tenga activo un filtro que reduzca el número de áreas de polígono disponibles para el análisis. |
La opción de análisis que has seleccionado necesita un mínimo de 30 puntos para situarse en el interior de las áreas poligonales de límite. | Solo se analizarán aquellos puntos situados dentro de las áreas de análisis de límite que dibujes o proporciones. Para obtener unos resultados fiables, como mínimo 30 puntos deben estar situados dentro de las áreas poligonales de límite. | Lamentablemente, si no tienes como mínimo 30 puntos, este método de análisis no es el adecuado para tus datos. Con un mínimo de 30 entidades, esta solución proporcionará áreas de análisis de límite diferentes y quizá mayores. Otra opción consiste en proporcionar una capa de área con un mínimo de 30 polígonos de agregación que superpongan al menos 30 de tus puntos. Cuando proporcionas áreas de agregación, el análisis se realiza en los recuentos de punto dentro de cada área. |
La opción de análisis que has seleccionado necesita un mínimo de 30 puntos para situarse en el interior de los polígonos de agregación. | Solo los puntos situados en el interior de los polígonos de agregación se incluirán en el análisis. Para obtener unos resultados fiables, como mínimo 30 puntos deben estar situados dentro de las áreas poligonales que has proporcionado. | Lamentablemente, si no tienes como mínimo 30 puntos, este método de análisis no es el adecuado para tus datos. De lo contrario, deberías trazar o proporcionar áreas de análisis de límite que superpongan al menos 30 de tus puntos. Las áreas de límite deberían reflejar todas las ubicaciones donde puedan situarse los puntos. |
La opción de análisis que has seleccionado necesita un mínimo de 30 áreas de agregación. | La opción que ha seleccionado se superpondrá a las áreas de agregación por encima de los puntos y después contará el número de puntos situados dentro de cada área. Se necesitan como mínimo 30 recuentos (30 áreas) para proporcionar unos resultados fiables. | Solo se pueden obtener unos resultados fiables si proporcionas como mínimo 30 puntos situados como mínimo dentro de 30 áreas de agregación. Si no tienes 30 áreas de agregación, puedes trazar o proporcionar áreas de análisis de límite que superpongan al menos 30 de tus puntos. Estas áreas de límite deberían reflejar todas las ubicaciones donde puedan situarse los puntos. |
Los puntos calientes y fríos no se pueden calcular si el número de puntos de cada área poligonal es idéntico. Inténtalo con áreas poligonales diferentes o selecciona opciones de análisis diferentes. | Cuando la herramienta Buscar puntos calientes contó el número de puntos de cada área de agregación, descubrió que todos los recuentos eran idénticos. Para calcular los resultados, esta herramienta requiere al menos alguna variación en los valores de recuento obtenidos. | Puedes proporcionar áreas de agregación alternativas donde no todas las áreas tendrán el mismo número exacto de puntos. En lugar de áreas de agregación, también puede trazar o proporcionar áreas de análisis de límite. Como alternativa, puedes especificar un campo de análisis. Sin embargo, esto obliga a reformular la pregunta de ¿dónde se encuentran muchos o pocos puntos? a la pregunta ¿dónde se agrupan espacialmente los valores altos y bajos? |
No existe una variación suficiente en cuanto a puntos de ubicación para calcular los puntos calientes y fríos. Los puntos que coinciden, por ejemplo, reducen la variación espacial. Puedes intentar especificar un área límite, áreas de agregación (un mínimo de 30) o un campo de análisis. | Según el número de puntos y de lo diseminados que se encuentren, la herramienta crea una cuadrícula para superponer los puntos. Después de contar el número de puntos incluido en cada cuadrado de la malla y de eliminar los cuadrados con recuentos que incidan cero, han quedado menos de 30 cuadrados. Esta herramienta necesita como mínimo 30 recuentos (30 cuadrados) para proporcionar unos resultados fiables. | Si los puntos ocupan muy pocas ubicaciones únicas (hay muchos puntos que coinciden), una buena solución consiste en proporcionar áreas de agregación que superpongan los puntos, o trazar y proporcionar áreas de análisis de límite que indiquen dónde pueden situarse los puntos y dónde no. Otra opción consiste en especificar un campo de análisis. Sin embargo, esto obliga a reformular la pregunta de ¿dónde se encuentran muchos o pocos puntos? a la pregunta ¿dónde se agrupan espacialmente los valores altos y bajos? |
No existe la variación suficiente entre los puntos dentro de las áreas poligonales de límite. Puedes intentar especificar unos límites mayores. | En función de las ubicaciones y el número de los puntos, la herramienta crea una cuadrícula para superponer los puntos. Después de contar el número de puntos incluido en cada cuadrado de la malla y de eliminar los cuadrados situados fuera de las áreas de análisis de límite, han quedado menos de 30 cuadrados de malla. Esta herramienta necesita como mínimo 30 recuentos (30 cuadrados) para proporcionar unos resultados fiables. | Si los puntos están situados en distintas ubicaciones dentro de las áreas de análisis de límite, bastará con crear o proporcionar unos límites mayores. Si tus puntos ocupan muy pocas ubicaciones únicas (hay muchos puntos que coinciden), una buena solución consiste en proporcionar áreas de agregación que superpongan tus puntos Otra opción consiste en especificar un campo de análisis. Sin embargo, esto obliga a reformular la pregunta de ¿dónde se encuentran muchos o pocos puntos? a la pregunta ¿dónde se agrupan espacialmente los valores altos y bajos? |
Todos los valores de tu campo de análisis son probablemente los mismos. Los puntos calientes y fríos no se pueden calcular si no existe una variación en el campo que se está analizando. | Es posible que hayas especificado un campo de análisis que tiene el mismo valor para todos los puntos o áreas en esta capa de análisis. La estadística usada por esta herramienta no puede resolver el problema a no ser que existan varios valores para trabajar con ellos. | Puedes especificar un campo de análisis diferente o, para las entidades de punto, analizar las densidades de los puntos en lugar de los valores de los puntos. |
No se han podido calcular los puntos calientes y fríos de los datos que has proporcionado. Intenta especificar un campo de análisis cuando corresponda. | Aunque es poco probable, cuando la herramienta ha creado una cuadrícula y ha contado el número de puntos incluido en cada cuadrado, los recuentos de todos los cuadrados eran idénticos. | La solución consiste en proporcionar áreas de agregación propias, trazar o proporcionar áreas de análisis de límite, o especificar un campo de análisis. |
El tamaño de celda debe ser menor que la banda de distancia. | Puede proporcionar un valor de Banda de distancia que sea menor que el tamaño de cada celda de la cuadrícula. | Active las unidades especificadas para Banda de distancia y Tamaño de celda, use el valor predeterminado calculado por la herramienta o use un valor que sea mayor que el tamaño de una sola celda de cuadrícula. |
Se puede encontrar información adicional sobre los algoritmos usados por la herramienta Buscar valores atípicos en Cómo funciona Análisis de valores atípicos optimizados.
Herramientas similares
Use Buscar valores atípicos para determinar si hay valores atípicos estadísticamente significativos en el patrón espacial de sus datos. A continuación se describen otras herramientas que pueden ser útiles.
Herramientas de análisis del Map Viewer
Si tiene interés en buscar agrupaciones estadísticamente significativas de valores altos y bajos en el patrón espacial de sus datos, use la herramienta Buscar puntos calientes.
Si va a usar mediciones de punto o de línea para crear un mapa de densidad, utilice la herramienta Calcular densidad.
Herramientas de análisis de ArcGIS Desktop
Buscar valores atípicos la misma estadística usada en Análisis de cluster y de valor atípico (I Anselin local de Moran) y Análisis de valores atípicos optimizados.