Инструмент Поиск кластеров точек находит на основании пространственного или пространственно-временного распределения находит кластеры точечных объектов в окружающем шуме.
Схема рабочего процесса
Анализ с помощью Инструменты геоаналитики
Анализ, использующий Инструменты геоаналитики, выполняется с помощью технологии распределенной обработки на нескольких компьютерах и ядрах ArcGIS GeoAnalytics Server. Инструменты геоаналитики и стандартные инструменты анализа объектов в ArcGIS Enterprise имеют разные параметры и возможности. Более подробно об этих различиях см. в разделе Различия между инструментами анализа объектов.
Пример
Негосударственная организация изучает какую-то болезнь, вызванную переносчиками инфекции и нее есть набор точечных данных о домашних хозяйствах изучаемой области, некоторые из которых являются зараженными, а некоторые – нет. С помощью инструмента Поиск кластеров точек исследователь может определить наибольшие кластеры зараженных переносчиками инфекции домашних хозяйств, чтобы выделить места, в которых нужно начать лечение и уничтожение паразитов.
Примечания по использованию
В инструменте Поиск кластеров точек используется один входной точечный слой.
Параметр Выберите метод кластеризации определяет, будет ли использоваться алгоритм заданного расстояния или самонастраивающийся алгоритм кластеризации. При заданном расстоянии (DBSCAN) находятся кластеры точек, расположенные в непосредственной близости, на основе заданного расстояния поиска. Автонастройка (HDBSCAN) находит кластеры точек так же, как и DBSCAN, но использует меняющиеся расстояния, позволяя определить кластеры с меняющимися плотностями, на основе вероятности кластеров (или стабильности).
Если выбран DBSCAN, кластеры могут быть найдены либо только в двумерном пространстве, либо и в пространстве, и во времени. Если вы установите отметку Использовать время для поиска кластеров, а входной слой имеет включенное время и тип Мгновенный, DBSCAN обнаружит пространственно-временные кластеры точек, находящихся в непосредственной близости, на основе заданного расстояния поиска и продолжительности поиска.
HDBSCAN в настоящее время поддерживает только пространственную кластеризацию и не использует время для обнаружения кластеров.
Все результаты будут включать поле с именем CLUSTER_ID, которое указывает, к какому кластеру относится каждый объект, и поле с именем COLOR_ID, которое является надписью, используемой для отображения результатов, так что каждый кластер визуально отличается от соседних кластеров в большинстве случаев. Для обоих полей значение -1 означает, что объект отмечен как шум.
Если для обнаружения пространственно-временных кластеров используется метод кластеризации Заданное расстояние (HDBSCAN), в результаты также будут включены следующие поля:
- FEAT_TIME – оригинальное мгновенное время каждого объекта.
- START_DATETIME – время начала экстента времени кластера, которому принадлежит объект.
- END_DATETIME – время окончания экстента кластера, которому принадлежит объект.
Время результирующего слоя будет установлено как интервал в полях START_DATETIME и END_DATETIME, гарантируя, что в большинстве случаев все элементы кластера объединяются при визуализации пространственно-временных кластеров с помощью бегунка времени. Для шумовых объектов START_DATETIME и END_DATETIME будут равны FEAT_TIME.
Если используется метод кластеризации Автонастройка (HDBSCAN), в результаты также будут включены следующие поля:
- PROB - вероятность принадлежности объекта к назначенному ему кластеру.
- OUTLIER - вероятность того, что объект является выбросом со своим собственным кластером. Более значение означает большую вероятность выброса.
- EXEMPLAR – указывает, какие объекты являются наиболее характерными для каждого кластера. Такие объекты обозначаются значением 1.
- STABILITY - присутствие каждого кластера в диапазоне масштабов. Более значение показывает, что кластер входит в более широкий диапазон масштабов.
Параметр Минимальное число точек, которые будут считаться кластером используется по-разному, в зависимости от выбранного метода кластеризации:
- Заданное расстояние (DBSCAN) - задает число объектов, которое должно быть найдено в пределах диапазона поиска от точки, с которой начинается формирование кластера. В результатах могут встречаться кластеры с меньшим числом объектов, чем задано этим значением. Диапазон поиска задается параметром Ограничьте диапазон поиска до. При использовании времени для поиска кластеров требуется дополнительная длительность поиска, которая задается с помощью параметра Ограничить длительность поиска до. При поиске участников кластера указанное минимальное количество объектов должно быть найдено в указанном диапазоне поиска и продолжительности поиска для формирования кластера. Обратите внимание, что это расстояние и длительность не связаны с диаметром или временным экстентом обнаруженных кластеров точек.
- Самонастраивающаяся кластеризация (HDBSCAN) - задает число объектов, окружающих каждую точку (включая саму точку), которые будут учитываться при оценке плотности. Это число также соответствует минимальному размеру кластера, размешенному при извлечении кластеров.
При использовании алгоритма HDBSCAN со слоем, содержащим более 3 миллионов объектов, может произойти сбой, если администратор не увеличил значение параметра javaHeapSize в GeoAnalyticsTools GP Service. Для 3 миллионов объектов требуется около 2 ГБ свободного пространства. Количество RAM, указанное в javaHeapSize, должно быть доступно на каждом компьютере GeoAnalytics Server, в дополнение к 16 ГБ, обычно требующимися для GeoAnalytics Server. Например, если необходимо кластеризовать 9 миллионов объектов методом HDBSCAN, необходимо задать javaHeapSize для не менее 6144 МБ, или 6 ГБ. В этом случае, каждый компьютер GeoAnalytics Server должен иметь не менее 22 ГБ доступной RAM.
Дополнительные сведения см.в документации ArcGIS Pro, Как работает Кластеризация на основе плотности
Пример ArcGIS API for Python
Инструмент Поиск кластеров точек доступен в ArcGIS API for Python.
В этом примере выполняется поиск кластеров мест розничной торговли.
# Import the required ArcGIS API for Python modules import arcgis from arcgis.gis import GIS from arcgis.geoanalytics import analyze_patterns
# Connect to your ArcGIS Enterprise portal and check that GeoAnalytics is supported portal = GIS("https://myportal.domain.com/portal", "gis_publisher", "my_password", verify_cert=False) if not portal.geoanalytics.is_supported():
print("Quitting, GeoAnalytics is not supported") exit(1)
# Find the big data file share dataset you're interested in using for analysis search_result = portal.content.search("", "Big Data File Share")
# Look through search results for a big data file share with the matching name bd_file = next(x for x in search_result if x.title == "bigDataFileShares_RetailLocation")
# Look through the big data file share for points of sale pos = next(x for x in bd_file.layers if x.properties.name == "POS")
# Set the tool environment settings arcgis.env.verbose = True
# Run the tool Find Point Clusters output = analyze_patterns.find_point_clusters(pos, 10, "Kilometers", "POS_Clusters")
# Visualize the tool results if you are running Python in a Jupyter Notebook processed_map = portal.map('USA') processed_map.add_layer(output) processed_map
Похожие инструменты
Используйте инструмент Поиск кластеров точек, чтобы найти кластеры точечных объектов в окружающем шуме, на основе пространственного распределения. Другие полезные инструменты описаны ниже:
инструменты анализа Map Viewer
Для определения наличия статистически значимой кластеризации в пространственном распределении данных используйте инструмент Найти горячие точки.
Чтобы создать карту плотности точечных или линейных объектов, используйте инструмент Вычисление плотности.
Для определения наличия статистически значимых выбросов в пространственном распределении данных используйте инструмент Поиск выбросов.
инструменты анализа ArcGIS Desktop
Инструмент геообработки Кластеризация на основе плотности выполняет ту же функцию, что и Поиск кластеров точек.
Инструмент Инструменты геоаналитики Поиск кластеров точек доступен в ArcGIS Pro.