Инструмент Найти горячие точки определяет наличие статистически значимой кластеризации в пространственном распределении данных.
Схема рабочего процесса
Примеры
Полицейское управление проводит анализ, чтобы определить, имеется ли связь между насильственными преступлениями и уровнем безработицы. В учебных заведениях в районах с высоким уровнем насильственных преступлений и высокой безработицей будет применена программа обеспечения занятости в летние каникулы. Найти горячие точки будет использоваться для определения районов со статистически значимыми горячими точками по уровням преступности и безработицы.
Политтехнолог хочет узнать, в каких регионах была высокая, а в каких – низкая поддержка определенной политической партии на прошедших выборах. Эта информация пригодится при разработке стратегии проведения избирательной кампании на грядущих выборах. Он использует вычитание доли голосов, отданных за Демократическую партию, из доли голосов Республиканской партии, затем использует Найти горячие точки для поиска горячих и холодных точек в разности. Горячие точки (красные) будут обозначать поддержку Республиканской партии, холодные (синие) – Демократической.
Сотрудник службы охраны окружающей среды изучает заболевания деревьев, чтобы определить области, где требуется обработка, и более подробно рассмотреть области, где имеется устойчивость. Инструмент Найти горячие точки может быть использован для поиска кластеров заболеваний (горячие точки) и здоровых кластеров (холодные точки).
Примечания по использованию
Входными объектами могут быть точки или полигоны.
Параметр Найти кластеры высоких или низких значений используется для оценки пространственного расположения объектов. Если используются полигональные объекты, необходимо выбрать поле. Кластеризация будет определяться с помощью значений в выбранном поле. Точечные объекты могут анализироваться с помощью поля или опции Point Counts. Если используется Point Counts, инструмент определяет, кластеризованы ли сами точки, вместо определения кластеров высоких и низких значений поля.
Если точки анализируются с помощью Point Counts, становятся доступными две новых опции. Параметр Число точек в пределах позволяет точкам быть агрегированными в пределах, которые очерчивает Fishnet Grid, Hexagon Grid или полигональный слой из ваших Ресурсов, например округа или районы. Параметр Определите, какие точки анализировать используется для создания одной или нескольких областей интереса. Три опции этого параметра – это None, т.е. используются все точки, область, заданная полигональным слоем из Содержания, и области, созданные с помощью инструмента Рисование.
Ваши данные можно нормализовать при помощи параметра Разделить на. Данные Esri Population используют Геообогащение и при их использовании потребляются кредиты. Другая опция – нормализация по полю входного слоя. Для нормализации можно использовать такие значения, как число домохозяйств или площадь.
Ниспадающее меню Опции можно использовать для установки определённого размера ячейки или диапазона расстояний для вашего анализа.
В выходном слое появятся дополнительные поля, содержащие такую информацию, как статистическая значимость каждого объекта, p-значение и z-оценка. В выходном слое также содержится информация по статистическому анализу, которая находится в разделе Описание в Информации об элементе.
Как работает инструмент Найти горячие точки
Даже в случайном пространственном распределении имеется доля кластеризации. Кроме того, мы часто хотим увидеть закономерности там, где они отсутствуют. Соответственно, довольно сложно определить, являются ли закономерности результатом реальных пространственных процессов или просто случайны. Вот почему исследователи и аналитики используют статистические методы, такие как Найти горячие точки (Getis-Ord Gi*) для количественного представления пространственных закономерностей.
Инструмент рассчитывает статистический показатель Getis-Ord Gi* для каждого объекта в наборе данных. Итоговые z-оценки и p-значения говорят вам о том, в какой области пространства кластеризуются объекты с высокими или низкими значениями. Инструмент Найти горячие точки вычисляет оптимельные значения по умолчанию на основе характеристик входных данных и автоматически применяет коррекцию средней доли ложных отклонений гипотезы (FDR). Каждый объект анализируется в контексте соседних объектов. Объект с высоким значением интересен, но, возможно, не является статистически существенной горячей точкой. Чтобы быть статистически существенной горячей точкой, объект должен иметь высокое значение и быть окружен другими объектами с также высокими значениями. Локальная сумма для объекта и его соседей сравнивается пропорционально с суммой всех объектов; когда локальная сумма очень отличается от ожидаемой локальной суммы, и когда это отличие является слишком большим, чтобы быть результатом случайного процесса, получается статистически значимая z-оценка.
Когда вы находите статистически значимую кластеризацию в данных, вы получаете ценную информацию. Понимание того, где и когда происходит кластеризация, является ключом к процессам, приводящим к появлению закономерностей. Например, понимание того, что уровень квартирных краж особенно высок в определённых районах, является жизненно необходимой информацией для разработки эффективной стратегии по их предотвращению, наращивания ресурсов полиции, ввода программ соседского дозора, начала углублённых расследований и определения потенциальных подозреваемых.
Анализ площадных объектов
Достаточно много данных могут отображаться с помощью площадных объектов: переписные районы, округа, избирательные округа, районы больниц, участки, границы парков и рекреационных зон, водоразделы, классификация территорий по зонам землепользования и климатическим зонам и т.д. Если слой анализа содержит площадные объекты, вам будет необходимо указать числовое поле, которое будет использовать для поиска кластеров высоких и низких значений. Поле анализа может отражать следующее:
- Значения (например, число домашних хозяйств)
- Показатели (например, процент людей с высшим образованием)
- Средние (например, среднее значение или медиана значений доходов домашних хозяйств)
- Индексы (например, показатель, указывающий на то, меньше или больше домашние хозяйства тратят денег на спортивные товары, чем среднее значение по стране.
Инструмент Найти горячие точки создает карту (слой result), на которой отображаются области со статистически значимыми кластерами высоких (горячие точки: красный) и низких (холодные точки: синий) значений для указанного поля.
Анализ точечных объектов
С помощью точечных объектов могут быть представлены различные данные. С помощью точек часто отображают места преступлений, школы, больницы, места экстренных вызовов, ДТП, скважины, деревья, суда и т.д. Иногда вам может понадобиться анализ значений данных (поле), связанных с каждым точечным объектом. В других случаях вы можете захотеть лишь осуществить кластеризацию точек. Решение вопроса о том, добавлять ли поле или нет, зависит от исследуемой вами задачи.
Поиск кластеров высоких и низких значений, связанных с точечными объектами
Выбор поля анализа позволит получить ответ на такие вопросы, как: где сконцентрированы высокие и низкие значения? Выбранное поле может представлять следующее:
- Количество (например, число ДТП на перекрестках)
- Показатели (например, безработица в городах, где каждый город показан точечным объектом)
- Средние (например, среднее значение результатов тестов по математике, проведенных во всех школах)
- Индексы (например, оценка уровня удовлетворенности автомобилем всеми дилерскими центрами страны)
Поиск кластеров с высоким и низким значением числа точек
Для некоторых точечных данных – обычно в случаях, когда точками показаны события, происшествия или наличие/отсутствие чего-либо – поле анализа необязательно использовать. В таких случаях вам, как правило, нужно знать места, где кластеризация экстремально интенсивная, а где выражена слабо. При осуществлении подобного анализа площадные объекты (созданная инструментом сетка либо указанный вами площадной слой) помещается над точками, а затем вычисляется число точек, попадающих на каждый площадной объект. Инструмент, который находит кластеры с высоким и низким числом точек, связанные с каждым площадным объектом.
Определите, какие точки анализировать
Укажите площадной слой или нарисуйте территории, для которых вы хотите осуществлять анализ всех местоположений, в которых могут находиться места происшествий. В этом случае инструмент Найти горячие точки наложит изучаемую территорию на сетку и подсчитает число точек, попадающих в каждую ее ячейку. Если вы не укажете, какие точки мест происшествий доступны для анализа, инструмент Найти горячие точки будет анализировать только ячейки, содержащие хотя бы одну точку. Если же вы используете эту опцию, чтобы определить, какие точки анализировать, анализ будет произведен для всех квадратов сетки, попадающих на указанную вами изучаемую территорию.
Подсчет количества точек внутри ваших областей агрегации
В некоторых случаях такие площадные объекты, как переписные и полицейские округа и участки, являются более логичными для анализа, чем использование предложенной по умолчанию сетки.
Выбор деления на
Существует два основных подхода к определению горячих и холодных точек:
- По числу – Когда вы анализируете определенный набор данных, вы часто хотите найти горячие и холодные точки относительно количества объектов в каждой области агрегирования в изучаемой области. Например, вы хотите найти горячие точки, в которых произошло наибольшее количество преступлений, и холодные очки, где произошло наименьшее количество преступлений, для того, чтобы распределять ресурсы подходящим образом.
- По интенсивности: с другой стороны, анализ и понимание закономерностей, которые принимают во внимание дополнительные факторы, влияющие на определенный феномен, также могут быть важны. Эта концепция носит название нормирования, или процесса деления одного числового значения атрибута на другое с целью минимизирования различий значений на основе размера областей или числа объектов в каждой области. Например, в случае преступлений, одной из целей является понимание, где находятся кластеры высокого и низкого числа преступлений, дополнительно учитывающие население. В этом случае вы будете считать количество преступлений в каждой области (неважно, является ли эта область сеткой или другим площадным набором данных) и делить это общее число преступлений на общее население в данной области. Это даст вам частоту преступлений, или количество преступлений на душу населения. Поиск горячих и холодных точек преступлений на душу населения дает ответ на другой вопрос, который также помогает принимать важные решения.
Оба способа анализа данных в изучаемой области являются корректными; выбор зависит только от решаемого вопроса.
Выбор подходящего атрибута, на который будет выполнено деление, является очень важным. Вам необходимо убедиться, что атрибут Делить на на самом деле влияет на распределение определенного анализируемого феномена.
Когда вы выбираете Разделить на Esri Population, будут использоваться данные населения из Esri Demographics Global Coverage. Убедитесь, что вы учли разрешение данных, доступных для области интереса, чтобы проверить, что оно совместимо с размером областей, которые будут обогащены (ваших областей агрегирования или создаваемых квадратов сетки).
Интерпретация результатов
Выходными данными работы инструмента Найти горячие точки является карта. Для точек или областей в итоговом слое карты характерна закономерность: чем темнее красный или синий цвета, тем больше вы можете быть уверены, что кластеризация не носит случайный характер. Точки или области отображаемые бежевым, с другой стороны, не являются частью статистически значимого кластера; пространственная закономерность, связанная с этими объектами, скорее всего случайна. Иногда в результате анализа оказывается, что статистически значимых кластеров нет. Это очень важная информация. Если пространственное распределение случайно, мы не сможем говорить о причинах такого распределения. В этих случаях все объекты на итоговом слое будут отображаться бежевым цветом. Но когда вы не находите статистически значимой кластеризации, местоположения, где имеет место кластеризация, могут, тем не менее, подсказать нам, что может быть причиной кластеризации. Нахождение статистически значимых мест пространственной кластеризации случаев раковых заболеваний, связанных с местами скопления токсичных веществ, должно привести к проведению соответствующей политики, направленной на защиту здоровья населения. Аналогично, выявление на карте холодных участков показателей детского ожирения, связанных со школьными внеклассными спортивными программами, должно привести к более широкому внедрению соответствующих программ в школах.
Проблемы и их решение
Статистический метод, который используется в инструменте Найти горячие точки, основан на теории вероятности и, следовательно, для эффективной работы этого инструмента необходимо число объектов, превышающее необходимый минимум. Для этого статистического метода также требуется множество значений вычислений или полей анализа. Если, к примеру, вы анализируете криминальные случаи по административным районам и, к своему удивлению, получаете совершенно одинаковый результат по каждому из этих районов, то инструмент не сможет выполнить вычисления. Ниже вы найдете пояснения к сообщениям, которые могут появиться при работе с инструментом Найти горячие точки:
Сообщение | Проблема | Решение |
---|---|---|
При выбранных опциях анализа необходимо минимум 60 точек, чтобы вычислить горячие и холодные точки. | В слое точечного анализа недостаточно точечных объектов для получения надежных результатов. | Очевидным решением будет добавление точек в слой анализа. Можно также попробовать задать границы областей анализа, добавив, таким образом, информацию о том, где точки могли появиться, но не появились. При этом методе вам потребуется, как минимум, 30 точек. Также можно указать области агрегации, или скопления, перекрывающие ваши точки. Для такого анализа вам в этих областях потребуется, как минимум, 30 полигонов и 30 точек . Если у вас будет по крайней мере 30 точек, то можно будет задать поле анализа. Таким образом вопрос перейдет из плоскости "где точек много, а где их мало" в плоскость "где пространственно расположены скопления высоких и низких значений полей анализа". |
При выбранных опциях анализа для вычисления горячих и холодных точек необходимо минимум 30 точек с действительными данными в поле анализа. | Для получения заслуживающих доверия результатов в слое анализа недостаточно точек или точек, связанных с не-NULL значениями полей анализа. | К сожалению, данный метод анализа не подходит для тех случаев, когда ваши данные содержат менее 30 точек. Если число точек более 30, и вы видите настоящее сообщение, заданное поле анализа, возможно, содержит значения NULL. Точки с NULL значениями поля анализа будут пропущены. Также, возможно, что у вас имеется активный Фильтр, уменьшающий количество точек, доступных для анализа. |
При выбранных опциях анализа для вычисления горячих и холодных точек необходимо минимум 30 полигонов с действительными данными в поле анализа. | Для получения заслуживающих доверие результатов в слое анализа недостаточно площадей полигонов или площадных объектов, связанных с не-NULL значениями поля анализа. | К сожалению, данный метод анализа не подходит для тех случаев, когда ваши данные содержат менее 30 площадей полигонов. Если число площадей более 30, и вы видите настоящее сообщение, заданное поле анализа, возможно, содержит NULL значения. Площади полигонов с NULL значениями поля анализа будут пропущены. Также, возможно, что у вас включен Фильтр, уменьшающий количество площадей полигонов, доступных для анализа. |
Для выбранной опции анализа требуется минимум 30 точек в пределах границ площадей полигонов. | Анализироваться будут только те точки, которые попали в заданные вами области анализа. Для заслуживающих доверие результатов необходимо, чтобы в пределах границ областей анализа было не менее 30 точек. | К сожалению, этот метод не подходит для тех случаев, когда ваши данные содержат менее 30 точек. Если имеется хотя бы 30 объектов, то зачастую выход может быть найден, если указать другие, как правило, более крупные области анализа. Можно также указать слой области, в котором имеется как минимум 30 полигонов агрегации, которые перекрывают как минимум 30 ваших точек. Когда задаются области агрегации, анализ производится по количеству точек в каждой области. |
Для выбранной опции анализа требуется минимум 30 точек в пределах полигонов агрегации. | Анализироваться будут только те точки, которые попадают в пределы полигонов агрегации. Для получения достоверных результатов необходимо, чтобы в пределах заданных площадей полигонов было не менее 30 точек. | К сожалению, этот метод не подходит для тех случаев, когда в представленных вами данных содержится менее 30 точек; необходимо указать или очертить границы областей анализа, которые перекрывали бы не менее 30 точек. Необходимо, чтобы границы этих областей отражали все возможные местоположения, в которых могут находиться точки. |
Для выбранной опции анализа необходимо не менее 30 областей агрегации. | Выбранная вами опция выполнит наложение областей агрегации поверх точек, а затем вычислит количество точек, попадающих в каждую область. Для получения заслуживающих доверие результатов необходимо минимум 30 вычислений (30 областей). | Заслуживающие доверия результаты могут быть получены, если будут заданы как минимум 30 точек, которые попадают в пределы не менее, чем в 30 областей агрегации. Если у вас нет 30 областей агрегации, то вы можете задать или очертить границы областей анализа, которые перекрывают по крайней мере 30 ваших точек. Эти области должны отражать все местоположения, в которых могут находиться точки. |
Горячие и холодные точки невозможно вычислить, если количество точек в каждом полигоне одинаково. Используйте другие площади полигонов или другие опции анализа. | При вычислении инструментом Найти горячие точки количества точек в каждой из областей агрегации получены одинаковые результаты вычислений. Для вычисления результатов инструменту требуется хотя бы небольшая множественность полученных значений вычислений. | Также можно указать другие области агрегации, которые не имели бы одинаковое количество точек. Вместо областей агрегации вы можете задать или очертить границы областей анализа. Либо, вы можете задать поле анализа. Однако в этом случае вопрос перейдет из плоскости "где точек много, а где их мало" в плоскость "где пространственно расположены скопления высоких и низких значений полей анализа". |
Недостаточен разброс точечных местоположений для вычисления горячих и холодных точек. Например, совпадающие точки уменьшают пространственный разброс. Можно попробовать указать ограниченную область, области агрегации (минимум 30) или Поле анализа. | В зависимости от количества точек и их распределения инструмент создаст ячейки сетки, покрывающие эти точки. После вычисления количества точек, попадающих в каждый из квадратов ячеек сетки, и удаления ячеек с нулевыми результатами осталось менее 30 квадратов ячеек сетки. Для получения заслуживающих доверия результатов этому инструменту необходимо минимум 30 вычислений (30 квадратов). | Если ваши точки занимают лишь небольшое количество уникальных местоположений (то есть, если у вас много совпадающих точек), необходимо либо указать области агрегации, перекрывающие ваши точки, либо задать границы областей анализа, указав, где точки возможны и невозможны. Вы также можете задать поле анализа. Однако в этом случае вопрос перейдет из плоскости "где точек много, а где их мало" в плоскость "где пространственно расположены скопления высоких и низких значений полей анализа". |
Недостаточен разброс точек в пределах границ площадей полигона. Можно попробовать расширить границы. | В зависимости от местоположения и количества точек инструмент создаст квадраты ячеек сетки, покрывающие эти точки. После вычисления количества точек, попадающих в каждый из квадратов ячеек сетки, и удаления ячеек, расположенных вне границ областей анализа, осталось менее 30 квадратов ячеек сетки. Для получения заслуживающих доверия результатов этому инструменту необходимо минимум 30 вычислений (30 квадратов). | Если ваши точки расположены в разных местоположениях внутри границ областей анализа, то, возможно, вам нужно лишь расширить границы. Если ваши точки занимают лишь небольшое количество уникальных местоположений (то есть, если у вас много совпадающих точек), необходимо указать области агрегации, перекрывающие ваши точки. Вы также можете задать поле анализа. Однако в этом случае вопрос перейдет из плоскости "где точек много, а где их мало" в плоскость "где пространственно расположены скопления высоких и низких значений полей анализа". |
Вероятно, все значения для вашего поля анализа одинаковы. Горячие и холодные точки невозможно вычислить, если в анализируемом поле отсутствует множественность значений. | Наиболее вероятно, что вы указали поле анализа, имеющее в слое анализа одинаковое значение для всех ваших точек или площадных объектов. Статистика, используемая данным инструментом, может быть вычислена только при наличии множества отличающихся между собой значений. | Можно указать другое поле анализа или, для точечных объектов, анализировать плотность точек вместо значений точек. |
Не удалось вычислить горячие и холодные точки для представленных данных. Попробуйте задать Поле анализа. | Хоть и маловероятно, когда инструмент создал сетку и вычислил количество точек в каждом квадрате, для каждого из квадратов были получены одинаковые результаты вычислений. | Возможное решение может быть найдено, если вы укажете ваши собственные области агрегации, границы областей анализа или поле анализа. |
Размер ячейки должен быть меньше, чем полоса расстояния. | Вы предоставили значение полосы расстояния меньшее, чем размер ячеек каждой сетки. | Проверьте указанные единицы для Полосы расстояния и Размера ячейки, используйте значение по умолчанию, вычисленное инструментом, или используйте значение большее, чем размеры одной ячейки сетки. |
Дополнительную информацию об алгоритмах, используемых в инструменте Найти горячие точки см. в разделе Как работает Оптимизированный анализ горячих точек .
Похожие инструменты
Используйте инструмент Найти горячие точки для определения наличия статистически значимой кластеризации в пространственном распределении данных. Другие полезные инструменты описаны ниже:
Инструменты анализа Map Viewer
Если вас интересует поиск выбросов в пространственном распределении данных, используйте инструмент Поиск выбросов.
Если вас интересует создание карты плотности точечных или линейных объектов, используйте инструмент Вычисление плотности.
инструменты анализа ArcGIS Pro
Найти горячие точки использует такую же статистику, как при работе инструментов Анализ горячих точек (Getis-Ord Gi*) и Оптимизированный анализ горячих точек.
Найти горячие точки также доступен в ArcGIS Pro. Для запуска инструмента из ArcGIS Pro ваш активный портал проекта должен быть запущен с версией ArcGIS Enterprise 10.6.1 или более поздней. Кроме того, вход на портал необходимо выполнить под учетной записью, имеющей права доступа для выполнения стандартного анализа объектов на данном портале.