La herramienta Buscar clústeres de puntos encuentra clústeres de entidades de puntos dentro del ruido colindante en función de su distribución espacial o espaciotemporal.
Diagrama de flujo de trabajo
Análisis mediante GeoAnalytics Tools
El análisis mediante GeoAnalytics Tools se ejecuta con el procesamiento distribuido en varios equipos y núcleos de ArcGIS GeoAnalytics Server. Las GeoAnalytics Tools y las herramientas de análisis de entidades estándar de ArcGIS Enterprise tienen parámetros y capacidades diferentes. Para obtener más información sobre las diferencias, consulte Diferencias de las herramientas de análisis de entidades.
Ejemplo
Una organización no gubernamental está estudiando una enfermedad concreta propagada por plagas y tiene un dataset de puntos que representa los hogares de un área de estudio, algunos de ellos infestados y otros no. Utilizando la herramienta Buscar clústeres de puntos, un analista puede determinar qué clústeres de hogares están infestados para ayudarle a delimitar un área en la que iniciar el tratamiento y la erradicación de las plagas.
Notas de uso
La entrada de Buscar clústeres de puntos es una sola capa de puntos.
El parámetro Elegir el método de clustering que desea utilizar determina si se usará una distancia definida o un algoritmo de clustering de autoajuste. Distancia definida (DBSCAN) busca clústeres de puntos que estén muy próximos en función de un rango de búsqueda especificado. El autoajuste (HDBSCAN) busca clústeres de puntos similares a DBSCAN, pero utiliza rangos de búsqueda variables teniendo en cuenta los clústeres con densidades variables en función de la probabilidad (o estabilidad) del clúster.
Si elige DBSCAN, encontrará clústeres solo en espacio bidimensional o en espacio y tiempo. Si selecciona Utilizar hora para buscar clústeres y la capa de entrada tiene el tiempo habilitado y es del tipo de instante, DBSCAN descubrirá clústeres espaciotemporales de puntos que estén muy próximos en función de una distancia de búsqueda y una duración de búsqueda especificadas.
Actualmente, HDBSCAN solo admite clustering espacial y no utilizará el tiempo para descubrir clústeres.
Todos los resultados incluirán un campo llamado CLUSTER_ID que indica el clúster al que pertenece cada entidad, además de un campo llamado COLOR_ID, que es una etiqueta que se usa para dibujar los resultados para que cada clúster se diferencie visualmente de sus clústeres vecinos en la mayoría de los casos. Para ambos campos, un valor de -1 indica que una entidad se ha etiquetado como ruido.
Si usa el método de clustering Distancia definida (DBSCAN) con el tiempo para descubrir clústeres espaciotemporales, los resultados también incluirán estos campos:
- FEAT_TIME: el tiempo de instante original de cada entidad.
- START_DATETIME: la hora de inicio de la extensión temporal del clúster al que pertenece una entidad.
- END_DATETIME: la hora de finalización de la extensión temporal del clúster al que pertenece una entidad.
El tiempo de la capa de resultados se definirá como un intervalo en los campos START_DATETIME y END_DATETIME, lo cual garantiza que, en la mayoría de los casos, todos los miembros del clúster se dibujen juntos al visualizar clústeres espaciotemporales en un control deslizante de tiempo. En el caso de las entidades de ruido, START_DATETIME y END_DATETIME equivaldrán a FEAT_TIME.
Si se usa el método de clustering Autoajuste (HDBSCAN), los resultados también incluirán los siguientes campos:
- PROB: la probabilidad de que una entidad pertenezca a su clúster asignado.
- OUTLIER: la posibilidad de que una entidad sea un valor atípico dentro de su propio clúster. Un valor más alto indica que es más probable que la entidad sea un valor atípico.
- EXEMPLAR: indica qué entidades son las más representativas de cada clúster. Estas entidades se indican con un valor de 1.
- STABILITY: la persistencia de cada clúster en un rango de escalas. Una puntuación mayor indica que un clúster persiste en un rango más amplio de escalas de distancia.
El parámetro Número mínimo de puntos que se deben considerar como un clúster se utiliza de manera diferente en función del método de clustering elegido:
- Distancia definida (DBSCAN): especifica el número de entidades que se deben encontrar dentro de un rango de búsqueda determinado de un punto para que este pueda empezar a formar un clúster. Los resultados podrían incluir clústeres con menos entidades que este valor. La distancia de rango de búsqueda se define con el parámetro Limitar el rango de búsqueda a. Si utiliza la hora para buscar clústeres, se necesita una duración de búsqueda adicional, que se define con el parámetro Limitar la duración de búsqueda a. Al buscar miembros de clústeres, la cantidad mínima especificada de entidades debe estar dentro del rango de búsqueda especificado y de la duración de tiempo para formar un clúster. Tenga en cuenta que esta distancia y duración no están relacionadas con el diámetro o la extensión temporal de los clústeres de puntos descubiertos.
- Autoajuste (HDBSCAN): especifica el número de entidades vecinas de cada punto (incluido el propio punto) que se tendrán en cuenta a la hora de estimar la densidad. Este número es además el tamaño de clúster mínimo permitido al extraer los clústeres.
Cuando se usa el algoritmo HDBSCAN con una capa de entrada con más de 3 millones de entidades, la herramienta podría fallar salvo que su administrador aumente el valor del parámetro javaHeapSize en el servicio de geoprocesamiento GeoAnalyticsTools. Se requieren aproximadamente 2 GB espacio de almacenamiento dinámico por cada 3 millones de entidades. La cantidad de RAM que especifica javaHeapSize debería estar disponible en cada equipo de GeoAnalytics Server, además de los 16 GB que suele requerir GeoAnalytics Server. Por ejemplo, si desea hacer un clúster de 9 millones de entidades con HDBSCAN, debería establecer javaHeapSize a como mínimo 6.144 MB o 6 GB. En este caso, cada equipo de GeoAnalytics Server debería tener un total de como mínimo 22 GB de RAM disponible.
Para obtener más información, consulte la documentación de ArcGIS Pro en Cómo funciona Clustering basado en densidad
Ejemplo de ArcGIS API for Python
La herramienta Buscar clústeres de puntos está disponible a través de ArcGIS API for Python.
En este ejemplo se buscan clústeres de ubicaciones de venta al por menor.
# Import the required ArcGIS API for Python modules import arcgis from arcgis.gis import GIS from arcgis.geoanalytics import analyze_patterns
# Connect to your ArcGIS Enterprise portal and check that GeoAnalytics is supported portal = GIS("https://myportal.domain.com/portal", "gis_publisher", "my_password", verify_cert=False) if not portal.geoanalytics.is_supported():
print("Quitting, GeoAnalytics is not supported") exit(1)
# Find the big data file share dataset you're interested in using for analysis search_result = portal.content.search("", "Big Data File Share")
# Look through search results for a big data file share with the matching name bd_file = next(x for x in search_result if x.title == "bigDataFileShares_RetailLocation")
# Look through the big data file share for points of sale pos = next(x for x in bd_file.layers if x.properties.name == "POS")
# Set the tool environment settings arcgis.env.verbose = True
# Run the tool Find Point Clusters output = analyze_patterns.find_point_clusters(pos, 10, "Kilometers", "POS_Clusters")
# Visualize the tool results if you are running Python in a Jupyter Notebook processed_map = portal.map('USA') processed_map.add_layer(output) processed_map
Herramientas similares
Utilice Buscar clústeres de puntos para encontrar clústeres de entidades de punto dentro del ruido colindante en función de su distribución espacial. Otras herramientas que pueden ser útiles son las siguientes:
herramientas de análisis de Map Viewer
Para determinar si hay algún clustering estadísticamente significativo en el patrón espacial de sus datos, utilice la herramienta Buscar puntos calientes.
Para crear un mapa de densidad de las entidades de puntos o líneas, use la herramienta Calcular densidad.
Para determinar si existen valores atípicos estadísticamente significativos en el patrón espacial de sus datos, utilice la herramienta Buscar valores atípicos.
herramientas de análisis de ArcGIS Desktop
La herramienta de geoprocesamiento Clustering basado en densidad realiza la misma función que Buscar clústeres de puntos.
La GeoAnalytics Tools Buscar clústeres de puntos está disponible en ArcGIS Pro.