Инструмент Поиск выбросов определяет наличие статистически значимых выбросов в пространственном распределении данных.
Схема рабочего процесса
Примеры
- Где в Лос-Анджелесе встречаются аномалии в структуре затрат?
- Где проходят наиболее четкие границы между богатыми и бедными в изучаемой области?
- Есть ли у вас на изучаемой территории магазины с низким уровнем продаж, несмотря на то, что окружены магазинами с высокими показателями продаж?
- Где можно на изучаемой территории встретить неожиданно высокий уровень заболевания диабетом?
- Есть ли в США округа с необычно низкой продолжительностью жизни, по сравнению с соседними?
Примечания по использованию
Входными объектами могут быть точки или полигоны.
Параметр Поиск выбросов из используется для оценки пространственного расположения объектов. Если используются полигональные объекты, необходимо выбрать поле. Выбросы будут определяться с помощью значений в выбранном поле. Точечные объекты можно проанализировать с использованием поля или опции Число точек. Если используется Число точек, этот инструмент будет определять, сами ли точки где-то необычным образом рассеяны либо кластеризованы, или там встречаются необычайно высокие или низкие значения.
Если точки анализируются с использованием параметра Число точек, будут доступны две дополнительные опции. Параметр Число точек в пределах позволяет точкам быть агрегированными в пределах Сетки, Гексагональной сетки, или полигонального слоя из ваших Ресурсов, например округов или районов почтового обслуживания. Параметр Определите, какие точки анализировать используется для создания одной или нескольких областей интереса. Для этого параметра есть три опции – Нет, означающая использование всех точек; заданная при помощи слоя из ваших Ресурсов область; и область, очерченная инструментом рисования.
Ваши данные можно нормализовать при помощи параметра Разделить на. Данные Esri Population используют Геообогащение и при использовании расходуют кредиты. Другая опция – нормализация по полю входного слоя. Для нормализации можно использовать такие значения, как число домохозяйств или площадь.
Применяемая этим инструментом статистика использует перестановки для определения вероятности нахождения актуального пространственного распределения анализируемых значений, методом сравнения имеющихся значений и случайно сгенерированных. Выбор числа перестановок в параметре Оптимизировать для является компромиссом между точностью и временем обработки (скоростью). Малое число перестановок может использоваться для начального изучения проблемы, но рекомендуется увеличивать количество перестановок до максимального, в зависимости от точности требуемого результата.
Ниспадающее меню Опции можно использовать для установки определённого размера ячейки или диапазона расстояний для вашего анализа.
В выходном слое будут дополнительные поля, содержащие такую информацию, как Cluster/Outlier Type, количество соседей, включённых в анализ для каждого объекта, и Local Moran's I Index, Value и Score для каждого пространственного объекта. В выходном слое также содержится информация по статистическому анализу, которая находится в разделе Описание в Информации об элементе.
Как работает инструмент Поиск выбросов
Так как ваши глаза и мысли естественно пытаются найти закономерности даже там где их нет, довольно сложно определить, являются ли закономерности результатом реальных пространственных процессов или просто случайны. Вот почему исследователи и аналитики используют статистические методы, такие как Поиск выбросов (Anselin Local Moran's I) для количественного представления пространственных закономерностей. Когда вы находите статистически значимые выбросы в данных, вы получаете ценную информацию. Понимание того, где и когда происходят выбросы, является ключом к нахождению закономерностей. Например, понимание того, что уровень квартирных краж особенно высок в определённых районах, является жизненно необходимой информацией для разработки эффективной стратегии по их предотвращению, наращивания ресурсов полиции, ввода программ соседского дозора, начала углублённых расследований и определения потенциальных подозреваемых.
Инструмент Поиск выбросов вычисляет локальный индекс Морана (LMiIndex) для каждого пространственного объекта в наборе данных. Положительное значение указывает, что у объекта есть соседние объекты с такими же высокими или низкими значениями атрибута; этот объект является частью кластера. Отрицательное значение указывает, что у объекта есть соседние объекты с несходными значениями; этот объект является выбросом. В любом случае, p-значение для объекта должно быть достаточно маленьким, чтобы кластер или выброс можно было считать статистически значимыми. Более подробно об определении статистической значимости см. Что такое z-оценка? Что такое p-значение?. Заметьте, что локальный индекс Морана (I) – относительная измерение и может только интерпретироваться в контексте вычисленных для него z-оценки или p-значения. Поле Cluster/Outlier Type (COType) различает статистически существенный (0.05 уровня) кластер высоких значений (HH), кластер низких значений (LL), выброс, в котором высокое значение окружено в основном низкими значениями (HL), и выброс, в котором низкое значение окружено в основном высокими значениями (LH).
Анализ площадных объектов
Достаточно много данных могут отображаться с помощью площадных объектов: переписные районы, округа, избирательные округа, районы больниц, участки, границы парков и рекреационных зон, водосборные бассейны, классификация территорий по зонам землепользования и климатическим зонам и т.д. Если слой анализа содержит площадные объекты, вам будет необходимо указать числовое поле, которое будет использовать для поиска выбросов высоких и низких значений. Поле анализа может отражать следующее:
- Значения (например, число домашних хозяйств)
- Показатели (например, процент людей с высшим образованием)
- Средние (например, среднее значение или медиана значений доходов домашних хозяйств)
- Индексы (например, показатель, указывающий на то, меньше или больше домашние хозяйства тратят денег на спортивные товары, чем среднее значение по стране.
Инструмент Поиск выбросов создает карту (результирующий слой), на которой отображаются области со статистически значимыми выбросов (красный) и низких (синий), а также кластеры с высокими (розовый) и низкими (голубой) значениями.
Анализ точечных объектов
С помощью точечных объектов могут быть представлены различные данные. С помощью точек часто отображают места преступлений, школы, больницы, места экстренных вызовов, ДТП, скважины, деревья, суда и т.д. Иногда вам может понадобиться анализ значений данных (поле), связанных с каждым точечным объектом. В других случаях вы можете захотеть лишь осуществить кластеризацию или дисперсию самих точек. Решение вопроса о том, добавлять ли поле или нет, зависит от исследуемой вами задачи.
Поиск выбросов высоких и низких значений, связанных с точечными объектами
Выбор поля анализа позволит получить ответ на такие вопросы, как: Где сконцентрированы аномально высокие и низкие значения? Выбранное поле может представлять следующее:
- Количество (например, число ДТП на перекрестках)
- Показатели (например, безработица в городах, где каждый город показан точечным объектом)
- Средние (например, среднее значение результатов тестов по математике, проведенных во всех школах)
- Индексы (например, оценка уровня удовлетворенности автомобилем всеми дилерскими центрами страны)
Поиск выбросов с высоким и низким значением числа точек
Для некоторых точечных данных – обычно в случаях, когда точками показаны события, происшествия или наличие/отсутствие чего-либо – поле анализа необязательно использовать. В таких случаях вам, как правило, нужно знать места, где кластеризация экстремально интенсивная, а где выражена слабо. При осуществлении подобного анализа площадные объекты (созданная инструментом обычная либо гексагональная сетка либо указанный вами площадной слой) помещается над точками, а затем вычисляется число точек, попадающих на каждый площадной объект. Инструмент, который находит выбросы с высоким и низким числом точек, связанные с каждым площадным объектом.
Определите, какие точки анализировать
Укажите площадной слой или нарисуйте территории, для которых вы хотите осуществлять анализ всех местоположений, в которых могут находиться места происшествий. В этом случае инструмент Поиск выбросов наложит изучаемую территорию на обычную или гексагональную сетку и подсчитает число точек, попадающих в каждую ее ячейку. Если вы не укажете, какие точки мест происшествий доступны для анализа, инструмент Поиск выбросов будет анализировать только ячейки сетки, содержащие хотя бы одну точку. Если же вы используете эту опцию, чтобы определить, какие точки анализировать, анализ будет произведен для всех ячеек сетки, попадающих на указанную вами изучаемую территорию.
Подсчет количества точек внутри ваших областей агрегации
В некоторых случаях такие площадные объекты, как переписные и полицейские округа и участки, являются более логичными для анализа, чем использование предложенной по умолчанию обычной либо гексагональной сетки.
Выбор деления на
Существует два основных подхода к определению выбросов:
- По числу – Когда вы анализируете определенный набор данных, вы часто хотите найти выбросы относительно количества объектов в каждой области агрегирования в изучаемой области. Например, вы хотите найти выбросы точки, в которых произошло наибольшее количество преступлений в довольно спокойном районе, либо где произошло наименьшее количество преступлений в районах с высокой преступностью, для того, чтобы распределять ресурсы подходящим образом.
- По интенсивности: с другой стороны, анализ и понимание закономерностей, которые принимают во внимание дополнительные факторы, влияющие на определенный феномен, также могут быть важны. Эта концепция носит название нормирования, или процесса деления одного числового значения атрибута на другое с целью минимизирования различий значений на основе размера областей или числа объектов в каждой области. Например, в случае преступлений, одной из целей является понимание, где находятся выбросы или кластеры высокого и низкого числа преступлений, дополнительно учитывающие население. В этом случае вы будете считать количество преступлений в каждой области (неважно, является ли эта область сеткой или другим площадным набором данных) и делить это общее число преступлений на общее население в данной области. Это даст вам частоту преступлений, или количество преступлений на душу населения. Поиск областей выбросов преступлений на душу населения дает ответ на другой вопрос, который также помогает принимать важные решения.
Оба способа анализа данных в изучаемой области являются корректными; выбор зависит только от решаемого вопроса.
Выбор подходящего атрибута, на который будет выполнено деление, является очень важным. Вам необходимо убедиться, что атрибут Делить на на самом деле влияет на распределение определенного анализируемого феномена.
Если вы решили Делить на Esri Population, используются демографические данные из слоя Esri Demographics Global Coverage. Убедитесь, что вы учли разрешение данных, доступных для области интереса, чтобы проверить, что оно совместимо с размером областей, которые будут обогащены (ваших областей агрегирования или создаваемых квадратов сетки).
Интерпретация результатов
Выходными данными работы инструмента Поиск выбросов является карта. Для точек или полигонов результирующего слоя карты ярко-красные и ярко-синие объекты означают статистически значимые выбросы для вашей изучаемой территории. Голубые и розовые означают статистически значимые кластеры. Точки или области отображаемые бежевым, с другой стороны, не являются выбросами или частью статистически значимого кластера; пространственная закономерность, связанная с этими объектами, скорее всего случайна. Иногда в результате анализа оказывается, что статистически значимых выбросов или кластеров нет совсем. Это очень важная информация. Если пространственное распределение случайно, мы не сможем говорить о причинах такого распределения. В этих случаях все объекты на итоговом слое будут отображаться бежевым цветом. Но когда вы не находите статистически значимых выбросов или кластеризации, местоположения, где имеет место кластеризация, могут, тем не менее, подсказать нам, что может быть причиной этого явления. Нахождение статистически значимых выбросов частых случаев раковых заболеваний, связанных с местами скопления токсичных веществ, должно привести к проведению соответствующей политики, направленной на защиту здоровья населения. Аналогично, выявление на карте низких выбросов показателей детского ожирения, связанных со школьными внеклассными спортивными программами, должно привести к более широкому внедрению соответствующих программ в школах.
Проблемы и их решение
Статистический метод, который используется в инструменте Поиск выбросов, основан на теории вероятности и, следовательно, для эффективной работы этого инструмента необходимо число объектов, превышающее необходимый минимум. Для этого статистического метода также требуется множество значений вычислений или полей анализа. Если, к примеру, вы анализируете криминальные случаи по административным районам и, к своему удивлению, получаете совершенно одинаковый результат по каждому из этих районов, то инструмент не сможет выполнить вычисления. Ниже вы найдете пояснения к сообщениям, которые могут появиться при работе с инструментом Поиск выбросов:
Сообщение | Проблема | Решение |
---|---|---|
При выбранных опциях анализа необходимо минимум 60 точек, чтобы вычислить горячие и холодные точки. | В слое точечного анализа недостаточно точечных объектов для получения надежных результатов. | Очевидным решением будет добавление точек в слой анализа. Можно также попробовать задать границы областей анализа, добавив, таким образом, информацию о том, где точки могли появиться, но не появились. При этом методе вам потребуется, как минимум, 30 точек. Также можно указать области агрегации, или скопления, перекрывающие ваши точки. Для такого анализа вам в этих областях потребуется, как минимум, 30 полигонов и 30 точек . Если у вас будет по крайней мере 30 точек, то можно будет задать поле анализа. Таким образом вопрос перейдет из плоскости "где точек много, а где их мало" в плоскость "где пространственно расположены скопления высоких и низких значений полей анализа". |
При выбранных опциях анализа для вычисления горячих и холодных точек необходимо минимум 30 точек с действительными данными в поле анализа. | Для получения заслуживающих доверия результатов в слое анализа недостаточно точек или точек, связанных с не-NULL значениями полей анализа. | К сожалению, данный метод анализа не подходит для тех случаев, когда ваши данные содержат менее 30 точек. Если число точек более 30, и вы видите настоящее сообщение, заданное поле анализа, возможно, содержит значения NULL. Точки с NULL значениями поля анализа будут пропущены. Также, возможно, что у вас имеется активный Фильтр, уменьшающий количество точек, доступных для анализа. |
При выбранных опциях анализа для вычисления горячих и холодных точек необходимо минимум 30 полигонов с действительными данными в поле анализа. | Для получения заслуживающих доверие результатов в слое анализа недостаточно площадей полигонов или площадных объектов, связанных с не-NULL значениями поля анализа. | К сожалению, данный метод анализа не подходит для тех случаев, когда ваши данные содержат менее 30 площадей полигонов. Если число площадей более 30, и вы видите настоящее сообщение, заданное поле анализа, возможно, содержит NULL значения. Площади полигонов с NULL значениями поля анализа будут пропущены. Также, возможно, что у вас включен Фильтр, уменьшающий количество площадей полигонов, доступных для анализа. |
Для выбранной опции анализа требуется минимум 30 точек в пределах границ площадей полигонов. | Анализироваться будут только те точки, которые попали в заданные вами области анализа. Для заслуживающих доверие результатов необходимо, чтобы в пределах границ областей анализа было не менее 30 точек. | К сожалению, этот метод не подходит для тех случаев, когда ваши данные содержат менее 30 точек. Если имеется хотя бы 30 объектов, то зачастую выход может быть найден, если указать другие, как правило, более крупные области анализа. Можно также указать слой области, в котором имеется как минимум 30 полигонов агрегации, которые перекрывают как минимум 30 ваших точек. Когда задаются области агрегации, анализ производится по количеству точек в каждой области. |
Для выбранной опции анализа требуется минимум 30 точек в пределах полигонов агрегации. | Анализироваться будут только те точки, которые попадают в пределы полигонов агрегации. Для получения достоверных результатов необходимо, чтобы в пределах заданных площадей полигонов было не менее 30 точек. | К сожалению, этот метод не подходит для тех случаев, когда в представленных вами данных содержится менее 30 точек; необходимо указать или очертить границы областей анализа, которые перекрывали бы не менее 30 точек. Необходимо, чтобы границы этих областей отражали все возможные местоположения, в которых могут находиться точки. |
Для выбранной опции анализа необходимо не менее 30 областей агрегации. | Выбранная вами опция выполнит наложение областей агрегации поверх точек, а затем вычислит количество точек, попадающих в каждую область. Для получения заслуживающих доверие результатов необходимо минимум 30 вычислений (30 областей). | Заслуживающие доверия результаты могут быть получены, если будут заданы как минимум 30 точек, которые попадают в пределы не менее, чем в 30 областей агрегации. Если у вас нет 30 областей агрегации, то вы можете задать или очертить границы областей анализа, которые перекрывают по крайней мере 30 ваших точек. Эти области должны отражать все местоположения, в которых могут находиться точки. |
Горячие и холодные точки невозможно вычислить, если количество точек в каждом полигоне одинаково. Используйте другие площади полигонов или другие опции анализа. | При вычислении инструментом Найти горячие точки количества точек в каждой из областей агрегации получены одинаковые результаты вычислений. Для вычисления результатов инструменту требуется хотя бы небольшая множественность полученных значений вычислений. | Также можно указать другие области агрегации, которые не имели бы одинаковое количество точек. Вместо областей агрегации вы можете задать или очертить границы областей анализа. Либо, вы можете задать поле анализа. Однако в этом случае вопрос перейдет из плоскости "где точек много, а где их мало" в плоскость "где пространственно расположены скопления высоких и низких значений полей анализа". |
Недостаточен разброс точечных местоположений для вычисления горячих и холодных точек. Например, совпадающие точки уменьшают пространственный разброс. Можно попробовать указать ограниченную область, области агрегации (минимум 30) или Поле анализа. | В зависимости от количества точек и их распределения инструмент создаст ячейки сетки, покрывающие эти точки. После вычисления количества точек, попадающих в каждый из квадратов ячеек сетки, и удаления ячеек с нулевыми результатами осталось менее 30 квадратов ячеек сетки. Для получения заслуживающих доверия результатов этому инструменту необходимо минимум 30 вычислений (30 квадратов). | Если ваши точки занимают лишь небольшое количество уникальных местоположений (то есть, если у вас много совпадающих точек), необходимо либо указать области агрегации, перекрывающие ваши точки, либо задать границы областей анализа, указав, где точки возможны и невозможны. Вы также можете задать поле анализа. Однако в этом случае вопрос перейдет из плоскости "где точек много, а где их мало" в плоскость "где пространственно расположены скопления высоких и низких значений полей анализа". |
Недостаточен разброс точек в пределах границ площадей полигона. Можно попробовать расширить границы. | В зависимости от местоположения и количества точек инструмент создаст квадраты ячеек сетки, покрывающие эти точки. После вычисления количества точек, попадающих в каждый из квадратов ячеек сетки, и удаления ячеек, расположенных вне границ областей анализа, осталось менее 30 квадратов ячеек сетки. Для получения заслуживающих доверия результатов этому инструменту необходимо минимум 30 вычислений (30 квадратов). | Если ваши точки расположены в разных местоположениях внутри границ областей анализа, то, возможно, вам нужно лишь расширить границы. Если ваши точки занимают лишь небольшое количество уникальных местоположений (то есть, если у вас много совпадающих точек), необходимо указать области агрегации, перекрывающие ваши точки. Вы также можете задать поле анализа. Однако в этом случае вопрос перейдет из плоскости "где точек много, а где их мало" в плоскость "где пространственно расположены скопления высоких и низких значений полей анализа". |
Вероятно, все значения для вашего поля анализа одинаковы. Горячие и холодные точки невозможно вычислить, если в анализируемом поле отсутствует множественность значений. | Наиболее вероятно, что вы указали поле анализа, имеющее в слое анализа одинаковое значение для всех ваших точек или площадных объектов. Статистика, используемая данным инструментом, может быть вычислена только при наличии множества отличающихся между собой значений. | Можно указать другое поле анализа или, для точечных объектов, анализировать плотность точек вместо значений точек. |
Не удалось вычислить горячие и холодные точки для представленных данных. Попробуйте задать Поле анализа. | Хоть и маловероятно, когда инструмент создал сетку и вычислил количество точек в каждом квадрате, для каждого из квадратов были получены одинаковые результаты вычислений. | Возможное решение может быть найдено, если вы укажете ваши собственные области агрегации, границы областей анализа или поле анализа. |
Размер ячейки должен быть меньше, чем полоса расстояния. | Вы предоставили значение полосы расстояния меньшее, чем размер ячеек каждой сетки. | Проверьте указанные единицы для Полосы расстояния и Размера ячейки, используйте значение по умолчанию, вычисленное инструментом, или используйте значение большее, чем размеры одной ячейки сетки. |
Дополнительную информацию об алгоритмах, используемых в инструменте Поиск выбросов, см. в разделе Как работает Оптимизированный анализ выбросов.
Похожие инструменты
Используйте инструмент Поиск выбросов, чтобы определить наличие статистически значимых выбросов в пространственном распределении данных. другие полезные инструменты описаны ниже.
Инструменты анализа Map Viewer
Если вас интересует поиск статистически значимых кластеров высоких и низких значений в пространственном распределении данных, используйте инструмент Найти горячие точки.
Если для создания карты плотности вы используете точечные или линейные измерения, используйте инструмент Вычисление плотности.
инструменты анализа ArcGIS Pro
Поиск выбросов выполняет ту же статистику, которая используется инструментами Анализ кластеров и выбросов (Anselin Local Moran's I) и Оптимизированный анализ выбросов.