Инструмент Найти горячие точки определяет наличие статистически значимой кластеризации в пространственном распределении данных.
- Действительно ли точки (места правонарушений, деревья, ДТП) кластеризованы? Как в этом убедиться?
- Действительно ли вы нашли статистически значимую горячую точку (для затрат, детской смертности, постоянно высоких результатов школьных экзаменов), или при изменении способа присвоения символов ситуация на карте изменяется?
Даже в случайном пространственном распределении имеется доля кластеризации. Кроме того, мы часто хотим увидеть закономерности там, где они отсутствуют. Соответственно, довольно сложно определить, являются ли закономерности результатом реальных пространственных процессов или просто случайны. Вот почему исследователи и аналитики используют статистические методы, такие как Найти горячие точки (Getis-Ord Gi*) для количественного представления пространственных закономерностей. Когда вы находите статистически значимую кластеризацию в данных, вы получаете ценную информацию. Понимание того, где и когда происходит кластеризация, является ключом к процессам, приводящим к появлению закономерностей. Например, понимание того, что уровень квартирных краж особенно высок в определенных районах, является жизненно необходимой информацией для разработки эффективной стратегии по их предотвращению, увеличения ресурсов полиции, организации соседского дозора, начала углубленных расследований и определения потенциальных подозреваемых.
1 Анализ площадных объектов
Достаточно много данных могут отображаться с помощью площадных объектов: переписные районы, округа, избирательные округа, районы больниц, участки, границы парков и рекреационных зон, водосборные бассейны, классификация территорий по зонам землепользования и климатическим зонам и т.д. Если слой анализа содержит площадные объекты, вам будет необходимо указать числовое поле, которое будет использовать для поиска кластеров высоких и низких значений. Поле анализа может отражать следующее:
- Значения (например, число домашних хозяйств)
- Показатели (например, процент людей с высшим образованием)
- Средние (например, среднее значение или медиана значений доходов домашних хозяйств)
- Индексы (например, показатель, указывающий на то, меньше или больше домашние хозяйства тратят денег на спортивные товары, чем среднее значение по стране.
Инструмент Поиск горячих точек создает карту (слой result), на которой отображаются области со статистически значимыми кластерами высоких (горячие точки: красный) и низких (холодные точки: синий) значений для указанного поля. Такой анализ поможет вам ответить на следующие вопросы:
Какие территории имеют наилучший, а какие – наихудший доступ к сервисам?
Например, на основе числа детей и количества педиатров вы можете найти территории с хорошей и с плохой обеспеченностью услугами детских врачей. Эта информация позволит разработать программу трудоустройства врачей-педиатров во всех найденных вами плохо обеспеченных районах. Для этого анализа вы можете создать переменную, отражающую число педиатров на одного ребенка. Затем запустите инструмент Найти горячие точки для этих показателей, чтобы найти значимые кластеры с высокими (горячие точки соответствуют хорошей обеспеченности) и низкими (холодные точки соответствуют плохой обеспеченности) значениями.
Где конкретные типы событий встречаются чаще, чем должно быть исходя из их доли в массиве всех событий?
Например, сотрудники противопожарной службы обеспокоены растущим числом пожаров, связанных с приготовлением пищи. Вы можете помочь им. Сначала возьмите число кухонных пожаров деленное на количество всех остальных пожаров в жилых зданиях для окрестности изучаемой территории (например, для переписных районов). Далее запустите инструмент Найти горячие точки для этих показателей, чтобы найти районы с числом кухонных пожаров, большим ожидаемого значения (горячие точки). Тип приготавливаемой пищи, а также навыки в ее приготовлении также могут сделать для некоторых районов пожары при приготовлении еды более частыми событиями, чем для других. Размещение в зонах повышенного риска рекламных и образовательных материалов должно предотвратить будущие пожары.
Где сильно, а где слабо развита политическая активность населения?
Вам, к примеру, может понадобиться узнать, какие регионы характеризуются высокими, а какие – низкими значениями поддержки конкретной политической партии, кандидата или избирательной активности. Эта информация пригодится при разработке стратегии проведения избирательной кампании на грядущих выборах. На показанной ниже карте красным областям соответствуют статистически важные участки, где процент поддержки Республиканской партии значительно превышает соответствующий показатель Демократической партии. Синие территории – наоборот, характеризуются высоким уровнем поддержки Демократической партии США. Данная карта была создана путем вычитания доли голосов, отданных за Демократическую партию, из доли голосов Республиканской партии, после чего для этих разностей был запущен инструмент Найти горячие точки.
2 Анализ точечных объектов
С помощью точечных объектов могут быть представлены различные данные. С помощью точек часто отображают места преступлений, школы, больницы, места экстренных вызовов, ДТП, скважины, деревья, суда и т.д. Иногда вам может понадобиться анализ значений данных (поле), связанных с каждым точечным объектом. В других случаях вы можете захотеть лишь осуществить кластеризацию точек. Решение вопроса о том, добавлять ли поле или нет, зависит от исследуемой вами задачи.
2.1 Поиск высоких и низких статистически значимых кластеров, связанных с точечными объектами
Вам может понадобиться добавить поле анализа для решения таких вопросов, как: Где находятся кластеры с высоким и низким значением показателя? Выбранное вами поле может представлять:
- Количество (например, число ДТП на перекрестках)
- Показатели (например, безработица в городах, где каждый город показан точечным объектом)
- Средние (например, среднее значение результатов тестов по математике, проведенных во всех школах)
- Индексы (например, оценка уровня удовлетворенности автомобилем всеми дилерскими центрами страны)
Понимание того, в какой области пространства кластеризуются точечные объекты с высокими или низкими значениями, помогает отвечать на важные вопросы. Например:
Где объем ресурсов является достаточным, а где – нет?
Например, для борьбы со стихийными бедствиями понимание показателей доступности койко-мест поможет вам готовить и планировать работу в чрезвычайных ситуациях. Если ваши точечные объекты отображают местоположения больниц, вычисление среднего числа доступных койко-мест в день, неделю, месяц, квартал и запуск для этих средних значений инструмента Найти горячие точки позволит вам увидеть как районы с заполненными больницами, так и те, где имеется большое количество свободных мест, а также выявить важные временные закономерности.
Другим примером может служить анализ территорий, особенно нуждающихся в школьных учителях. Если ваши точечные объекты соответствуют местоположениям школ и для каждой точки имеется среднее значение количества учащихся на одного учителя, использование для этих показателей инструмента Найти горячие точки позволит вам выявить районы школ с дефицитом учителей и/или классного оборудования.
Какие территории имеют лучшую, а какие – худшую посещаемость?
Если, к примеру, места розничной торговли в торговых центрах показаны точечными объектами с полем анализа, содержащим значения количества покупателей, инструмент Найти горячие точки позволит вам точно определить, какие области торгового центра имеют хорошую, а какие – плохую посещаемость.
2.2 Поиск кластеров с высоким и низким значением числа точек
Для некоторых точечных данных – обычно в случаях, когда точками показаны события, происшествия или наличие/отсутствие чего-либо – поле анализа необязательно использовать. В таких случаях вам, как правило, нужно знать места, где кластеризация экстремально интенсивная, а где выражена слабо. При осуществлении подобного анализа площадные объекты (созданная инструментом сетка либо указанный вами площадной слой) помещается над точками, а затем вычисляется число точек, попадающих на каждый площадной объект. Инструмент, который находит кластеры с высоким и низким числом точек, связанные с каждым площадным объектом. Знание мест, где расположены статистически значимые кластеры числа точек, поможет вам ответить на следующие вопросы:
Где требуются дополнительные ресурсы?
Если каждая точка соответствует месту совершения преступления в вашем городе, запуск инструмента Найти горячие точки для этих точек позволит вам найти наиболее и наименее криминогенные территории. Эта информация поможет вам планировать уголовную превенцию на соответствующих территориях.
Какие территории приоритетны?
Используя точечные данные о взрослых деревьях в лесу, инструмент Найти горячие точки найдет территории с высокой и низкой плотностью расположения деревьев, что может здорово помочь работе лесничеств.
Аналогично, если точками показаны больные или зараженные деревья, с помощью инструмента Найти горячие точки вы сможете идентифицировать территории, для которых данные проблемы особенно актуальны (горячие точки) и выделить основные места, где деревья требуют ухода. Выделение территорий с низким уровнем заражения деревьев болезнями и вредителями (холодные точки) даст вам информацию о факторах, способствующих сопротивляемости деревьев заболеваниям и вредителям. Определение статистически значимых областей с высоким и низким уровнем заболеваний/вредителей деревьев будет являться убедительным доказательством наличия факторов, способствующих или, наоборот, препятствующих распространению данной проблемы.
Карта горячих точек ДТП, приведших к одной или нескольким смертям, поможет разработать программы повышения безопасности на дорогах.
Запуск инструмента Найти горячие точки для мест перехода заложенных домов в собственность залогодержателя позволит определить территории, для жителей которых особенно необходимо осуществление программ государственной поддержки. Территории, для которых количество случаев потерянного права выкупа заложенных домов очень невелико (холодные точки) соответствуют местам, характеризующимся устойчивым финансовым положением домовладельцев.
Для данного типа анализа (если вы не укажете агрегированные области для вычисления точек происшествий) инструмент Найти горячие точки создаст сетку и поместит ее поверх точек слоя анализа. Затем вычисляется и анализируется число точек, попадающих в каждую ячейку сети. Анализироваться будут только ячейки сетки, в которые попадает хотя бы одна точка, если вы не определите область доступных точек.
Любые статистически значимые горячие точки (красный) в итоговом слое отражают пространственные кластеры ячеек сети с высокими значениями. Сходным образом, статистически значимые холодные точки (синий) отражают пространственные кластеры ячеек сети с очень низкими значениями. Примечание: итоговый слой не является поверхностью плотности, а только отображает местоположения, где высокое или низкое число точек слишком кластеризовано, чтобы быть результатом случайных процессов. Может оказаться, что статистически значимые кластеры анализируемых вами точечных данных отсутствуют.
2.2.1 Определение, какие точки доступны для анализа
Укажите площадной слой или нарисуйте территории, для которых вы хотите осуществлять анализ всех местоположений, в которых могут находиться места происшествий. В этом случае инструмент Найти горячие точки наложит изучаемую территорию на сетку и подсчитает число точек, попадающих в каждую ее ячейку. Если вы не укажете, какие точки мест происшествий доступны для анализа, инструмент Найти горячие точки будет анализировать только ячейки, содержащие хотя бы одну точку. Если же вы используете эту опцию, чтобы определить, какие точки анализировать, анализ будет произведен для всех ячеек, попадающих на указанную вами изучаемую территорию. Далее представлены некоторые случаи, для которых указание границ анализа является полезным:
Где в пределах указанных границ находятся проблемные территории?
Если точкам соответствуют места запросов судами помощи у портов, укажите границы, в пределах которых находятся фарватеры. Любая найденная горячая точка будет соответствовать месту, откуда приходит неожиданно большое число запросов. Зная о таких местах, можно выполнить расследование и предложить меры по решению проблемы.
Другие случаи:
- Там, где работают магазины, случаются кражи. Поиск местоположений с необычно высоким числом краж позволяет определить круг подозреваемых.
- Отчуждение заложенных домов может происходить только там, где есть дома. Поиск горячих точек помогает определить районы, нуждающиеся в первоочередной помощи.
- Лесные пожары происходят только в лесах и не могут иметь места на территории водоемов. Любые статистически значимые горячие и холодные точки данного анализа послужат сигналом для лесничеств.
2.2.2 Подсчет количества точек внутри ваших областей агрегации
В некоторых случаях такие площадные объекты, как переписные и полицейские округа и участки, являются более логичными для анализа, чем использование предложенной по умолчанию сетки. Вот несколько примеров случаев, когда необходимо указать площадной слой для целей агрегации:
Какие административные районы содержат статистически значимые кластеры с большим и малым числом точек?
Чтобы найти районы города, для которых актуальны программы по отказу от использования асбеста, укажите площадной слой переписных районов города для его наложения на точечные местоположения, в которых был найден асбест в домах.
Для четкого понимания характера распространения вируса гриппа по стране укажите границы почтовых округов и точечные объекты, соответствующие местам заболевания гриппом. Анализируя каждую неделю новые случаи заболевания, вы сможете увидеть местоположения горячих точек и оценить, растут ли они, сокращаются, и меняются ли их местоположения.
2.2.3 Выбор деления с помощью
Существует два основных подхода к определению горячих и холодных точек:
- По числу – Когда вы анализируете определенный набор данных, вы часто хотите найти горячие и холодные точки относительно количества объектов в каждой области агрегирования в изучаемой области. Например, вы хотите найти горячие точки, в которых произошло наибольшее количество преступлений, и холодные очки, где произошло наименьшее количество преступлений, для того, чтобы распределять ресурсы подходящим образом.
- По интенсивности: с другой стороны, анализ и понимание закономерностей, которые принимают во внимание дополнительные факторы, влияющие на определенный феномен, также могут быть важны. Эта концепция носит название нормирования, или процесса деления одного числового значения атрибута на другое с целью минимизирования различий значений на основе размера областей или числа объектов в каждой области. Например, в случае преступлений, одной из целей является понимание, где находятся кластеры высокого и низкого числа преступлений, дополнительно учитывающие население. В этом случае вы будете считать количество преступлений в каждой области (неважно, является ли эта область сеткой или другим площадным набором данных) и делить это общее число преступлений на общее население в данной области. Это даст вам частоту преступлений, или количество преступлений на душу населения. Поиск горячих и холодных точек преступлений на душу населения дает ответ на другой вопрос, который также помогает принимать важные решения.
Выбор подходящего атрибута, на который будет выполнено деление, является очень важным. Вам необходимо убедиться, что деление на атрибут является тем атрибутом, который на самом деле влияет на распределение определенного анализируемого феномена.
Подходящие примеры нормирования:
- Количество потерь права выкупа, деленное на общее число домохозяйств
- Количество замеченных лосей, деленное на общую площадь
- Общий объем продаж, деленный на количество покупателей в каждом районе
- Количество безработных, деленное на население старше 16 лет
Когда вы выбираете Разделить поEsri Population, будут использоваться данные населения из Esri Demographics Global Coverage. Убедитесь, что вы учли разрешение данных, доступных для области интереса, чтобы проверить, что оно совместимо с размером областей, которые будут обогащены (ваших областей агрегирования или создаваемых квадратов сетки). Зайдите на Esri Demographics Global Coverage, чтобы получить дополнительную информацию о доступных уровнях географии для каждой страны и версии данных населения, используемой в вашем анализе.
3 Интерпретация результатов
Выходными данными работы инструмента Найти горячие точки является карта. Для точек или областей в итоговом слое карты характерна закономерность: чем темнее красный или синий цвета, тем больше вы можете быть уверены, что кластеризация не носит случайный характер. Точки или области отображаемые бежевым, с другой стороны, не являются частью статистически значимого кластера; пространственная закономерность, связанная с этими объектами, скорее всего случайна. Иногда в результате анализа оказывается, что статистически значимых кластеров нет. Это очень важная информация. Если пространственное распределение случайно, мы не сможем говорить о причинах такого распределения. В этих случаях все объекты на итоговом слое будут отображаться бежевым цветом. Когда мы не имеем статистически значимой кластеризации, места, где имеет место кластеризация, могут тем не менее подсказать нам, что может быть причиной кластеризации. Нахождение статистически значимых мест пространственной кластеризации случаев раковых заболеваний, связанных с местами скопления токсичных веществ, должно привести к проведению соответствующей политики, направленной на защиту здоровья населения. Аналогично, выявление на карте холодных участков показателей детского ожирения, связанных со школьными внеклассными спортивными программами, должно привести к более широкому внедрению соответствующих программ в школах.
4 Поиск и устранение проблем
Статистический метод, который используется в инструменте Найти горячие точки, основан на теории вероятности и, следовательно, для эффективной работы этого инструмента необходимо число объектов, превышающее необходимый минимум. Для этого статистического метода также требуется множество значений вычислений или полей анализа. Если, к примеру, вы анализируете криминальные случаи по административным районам и, к своему удивлению, получаете совершенно одинаковый результат по каждому из этих районов, то инструмент не сможет выполнить вычисления. Ниже вы найдете пояснения к сообщениям, которые могут появиться при работе с инструментом Найти горячие точки:
Сообщение | Проблема | Решение |
---|---|---|
При выбранных опциях анализа необходимо минимум 60 точек, чтобы вычислить горячие и холодные точки. | В слое точечного анализа недостаточно точечных объектов для получения надежных результатов. | Очевидным решением будет добавление точек в слой анализа. Можно также попробовать задать границы областей анализа, добавив, таким образом, информацию о том, где точки могли появиться, но не появились. При этом методе вам потребуется, как минимум, 30 точек. Также можно указать области агрегации, или скопления, перекрывающие ваши точки. Для такого анализа вам в этих областях потребуется, как минимум, 30 полигонов и 30 точек . Если у вас будет, по крайней мере 30 точек, то можно будет задать поле анализа. Таким образом вопрос перейдет из плоскости "где точек много, а где их мало" в плоскость "где пространственно расположены скопления высоких и низких значений полей анализа". |
При выбранных опциях анализа для вычисления горячих и холодных точек необходимо минимум 30 точек с действительными данными в поле анализа. | Для получения заслуживающих доверия результатов в слое анализа недостаточно точек или точек, связанных с ненулевыми значениями полей анализа. | К сожалению, данный метод анализа не подходит для тех случаев, когда ваши данные содержат менее 30 точек. Если число точек более 30, и вы видите настоящее сообщение, заданное поле анализа, возможно, содержит нулевые значения. Точки с нулевыми значениями поля анализа будут пропущены. Также, возможно, что у вас включен фильтр, уменьшающий количество точек, доступных для анализа. |
При выбранных опциях анализа для вычисления горячих и холодных точек необходимо минимум 30 полигонов с действительными данными в поле анализа. | Для получения заслуживающих доверие результатов в слое анализа недостаточно площадей полигонов или площадных объектов, связанных с ненулевыми значениями поля анализа. | К сожалению, данный метод анализа не подходит для тех случаев, когда ваши данные содержат менее 30 площадей полигонов. Если число площадей более 30, и вы видите настоящее сообщение, заданное поле анализа, возможно, содержит нулевые значения. Площади полигонов с нулевыми значениями поля анализа будут пропущены. Также, возможно, что у вас включен фильтр, уменьшающий количество площадей полигонов, доступных для анализа. |
Для выбранной опции анализа требуется минимум 30 точек в пределах границ площадей полигонов. | Анализироваться будут только те точки, которые попали в заданные вами области анализа. Для заслуживающих доверие результатов необходимо, чтобы в пределах границ областей анализа было не менее 30 точек. | К сожалению, этот метод не подходит для тех случаев, когда ваши данные содержат менее 30 точек. Если имеется хотя бы 30 объектов, то зачастую выход может быть найден, если указать другие, как правило, более крупные области анализа. Можно также указать слой области, в котором имеется как минимум 30 полигонов агрегации, которые перекрывают как минимум 30 ваших точек. Когда задаются области агрегации, анализ производится по количеству точек в каждой области. |
Для выбранной опции анализа требуется минимум 30 точек в пределах полигонов агрегации. | Анализироваться будут только те точки, которые попадают в пределы полигонов агрегации. Для получения достоверных результатов необходимо, чтобы в пределах заданных площадей полигонов было не менее 30 точек. | К сожалению, этот метод не подходит для тех случаев, когда в представленных вами данных содержится менее 30 точек; необходимо указать или очертить границы областей анализа, которые перекрывали бы не менее 30 точек. Необходимо, чтобы границы этих областей отражали все возможные местоположения, в которых могут находиться точки. |
Для выбранной опции анализа необходимо не менее 30 областей агрегации. | Выбранная вами опция выполнит наложение областей агрегации поверх точек, а затем вычислит количество точек, попадающих в каждую область. Для получения заслуживающих доверие результатов необходимо минимум 30 вычислений (30 областей). | Заслуживающие доверия результаты могут быть получены, если будут заданы как минимум 30 точек, которые попадают в пределы не менее, чем в 30 областей агрегации. Если у вас нет 30 областей агрегации, то вы можете задать или очертить границы областей анализа, которые перекрывают по крайней мере 30 ваших точек. Эти области должны отражать все местоположения, в которых могут находиться точки. |
Горячие и холодные точки невозможно вычислить, если количество точек в каждом полигоне одинаково. Используйте другие площади полигонов или другие опции анализа. | При вычислении инструментом Найти горячие точки количества точек в каждой из областей агрегации получены одинаковые результаты вычислений. Для вычисления результатов инструменту требуется хотя бы небольшая множественность полученных значений вычислений. | Также можно указать другие области агрегации, которые не имели бы одинаковое количество точек. Вместо областей агрегации вы можете задать или очертить границы областей анализа. Либо, вы можете задать поле анализа. Однако в этом случае вопрос перейдет из плоскости "где точек много, а где их мало" в плоскость "где пространственно расположены скопления высоких и низких значений полей анализа". |
Недостаточен разброс точечных местоположений для вычисления горячих и холодных точек. Например, совпадающие точки уменьшают пространственный разброс. Можно попробовать указать ограниченную область, области агрегации (минимум 30) или Поле анализа. | В зависимости от количества точек и их распределения инструмент создаст ячейки сетки, покрывающие эти точки. После вычисления количества точек, попадающих в каждый из квадратов ячеек сетки, и удаления ячеек с нулевыми результатами осталось менее 30 квадратов ячеек сетки. Для получения заслуживающих доверия результатов этому инструменту необходимо минимум 30 вычислений (30 квадратов). | Если ваши точки занимают лишь небольшое количество уникальных местоположений (то есть, если у вас много совпадающих точек), необходимо либо указать области агрегации, перекрывающие ваши точки, либо задать границы областей анализа, указав, где точки возможны и невозможны. Вы также можете задать поле анализа. Однако в этом случае вопрос перейдет из плоскости "где точек много, а где их мало" в плоскость "где пространственно расположены скопления высоких и низких значений полей анализа". |
Недостаточен разброс точек в пределах границ площадей полигона. Можно попробовать расширить границы. | В зависимости от местоположения и количества точек инструмент создаст квадраты ячеек сетки, покрывающие эти точки. После вычисления количества точек, попадающих в каждый из квадратов ячеек сетки, и удаления ячеек, расположенных вне границ областей анализа, осталось менее 30 квадратов ячеек сетки. Для получения заслуживающих доверия результатов этому инструменту необходимо минимум 30 вычислений (30 квадратов). | Если ваши точки расположены в разных местоположениях внутри границ областей анализа, то, возможно, вам нужно лишь расширить границы. Если ваши точки занимают лишь небольшое количество уникальных местоположений (то есть, если у вас много совпадающих точек), необходимо указать области агрегации, перекрывающие ваши точки. Вы также можете задать поле анализа. Однако в этом случае вопрос перейдет из плоскости "где точек много, а где их мало" в плоскость "где пространственно расположены скопления высоких и низких значений полей анализа". |
Вероятно, все значения для вашего поля анализа одинаковы. Горячие и холодные точки невозможно вычислить, если в анализируемом поле отсутствует множественность значений. | Наиболее вероятно, что вы указали поле анализа, имеющее в слое анализа одинаковое значение для всех ваших точек или площадных объектов. Статистика, используемая данным инструментом, может быть вычислена только при наличии множества отличающихся между собой значений. | Можно указать другое поле анализа или, для точечных объектов, анализировать плотность точек вместо значений точек. |
Мы не смогли вычислить горячие и холодные точки для представленных данных. Попробуйте задать Поле анализа. | Хоть и маловероятно, когда инструмент создал сетку и вычислил количество точек в каждом квадрате, для каждого из квадратов были получены одинаковые результаты вычислений. | Возможное решение может быть найдено, если вы укажете ваши собственные области агрегации, границы областей анализа или поле анализа. |
Дополнительную информацию об алгоритмах, используемых в инструменте Найти горячие точки, см. в разделе Как работает Оптимизированный анализ горячих точек.
5 Дополнительные ресурсы
Ресурсы ArcGIS Spatial Statistics