A ferramenta Localizar Valores Atípicos determinará se há valores atípicos estatisticamente significativos no padrão espacial de seus dados.
Diagrama do fluxo de trabalho
Exemplos
- Há padrões de gastos anômalos em Los Angeles?
- Onde estão os limites entre riqueza e pobreza na área de estudo?
- Na sua área, há lojas de varejo que estão lutando contra as baixas vendas, apesar de estarem cercadas por lojas de alto desempenho?
- Onde estão as taxas inesperadamente altas de diabete pela área de estudo?
- Há municípios nos Estados Unidos com probabilidade de vida baixa comparados aos seus municípios vizinhos?
Anotações de uso
As feições de entrada podem ser de pontos ou de áreas.
O parâmetro Localizar valores atípicos de é utilizado para avaliar a disposição espacial das feições. Se as suas feições forem áreas, um campo deverá ser escolhido. Os valores atípicos serão determinados utilizando os números no campo escolhido. As feições de ponto podem ser analisadas utilizando um campo ou a opção Contagens de Ponto. Se Contagens de Ponto for utilizado, a ferramenta determinará se os próprios pontos estão dispersados ou agrupados, ao invés de valores altos e baixos de campo.
Se os pontos estiverem sendo analisados com Contagens de Ponto, duas opções adicionais estarão disponíveis. O parâmetro Contagem de pontos dentro permite que pontos sejam agregados dentro de uma Grade de Fishnet, Grade do Hexágono ou uma camada de área do painel Conteúdo, como municípios ou ceps. O parâmetro Definir onde os pontos são possíveis é utilizado para criar uma área ou múltiplas áreas de interesse. As três opções para este parâmetro são Nenhum, significando que todos os pontos são utilizados, uma área definida por uma camada de área do painel Conteúdo, e áreas criadas utilizando a ferramenta Desenhar .
Seus dados podem ser normalizados utilizando o parâmetro Dividir por. Os dados População da Esri utilizam GeoEnrichment e exigem o uso de créditos. Outra opção é normalizar usando um campo da camada de entrada (disponível quando o parâmetro Localizar valores atípicos de é definido para um campo, em vez de Contagens de pontos). Os valores que podem ser usados para normalização incluem o número de casas ou área.
Anotação:
Os dados População da Esri não estarão disponíveis para o parâmetro Dividir por quando sua organização tiver um serviço de serviço de GeoEnrichment personalizado configurado.
A estatística utilizada por esta ferramenta utiliza permutações para determinar como seria localizar a distribuição espacial real dos valores que você está analisando ao comparar seus valores a um conjunto de valores gerados aleatoriamente. Escolher o número de permutações no parâmetro Otimizar para é um equilíbrio entre a opção Precisão e tempo de processamento aumentado (a opção Velocidade). Um número menor de permutações pode ser usado ao explorar um problema pela primeira vez, mas é uma prática recomendada aumentar as permutações para a opção Precisão dos resultados finais.
O menu suspenso Opções pode ser utilizado para configurar um valor do Tamanho de Célula específico ou valor da Faixa de Distância para sua análise.
A camada de saída inclui campos adicionais contendo informações como o Cluster/Outlier Type, o número de vizinhos de cada recurso incluído em sua análise, o Local Moran's I Index, e o Value e Score para cada feição. A camada de saída também contém informações sobre a análise de estatística na seção Descrição da sua página Detalhes do Item.
Como funciona Localizar Valores Atípicos
Já que nossos olhos e cérebro tentam localizar padrões naturalmente até quando não há, pode ser difícil saber se os padrões em seus dados são o resultado dos processos espaciais no trabalho ou apenas resultados aleatórios. É por isso que pesquisadores e analistas usam métodos estatísticos como Localizar Valores Atípicos (Anselin Local Moran's I) para quantificar padrões espaciais.
Quando você localiza um valor atípico estatisticamente significativo ou agrupamento em seus dados, você tem informações valiosas. Saber onde e quando ocorrem um valor atípico e agrupamentos, pode fornecer pistas importantes sobre os processos promovendo os modelos que você está visualizando. Saber que roubos residenciais, por exemplo, são constantemente mais altos em determinados bairros é uma informação vital se você precisar projetar estratégias de prevenção efetivas, alocar recursos de polícia escassos, iniciar programas de cuidados da vizinhança, autorizar investigações criminais detalhadas ou identificar potenciais suspeitos.
A ferramenta Localizar Valores Atípicos calcula um Índice de Moran local (LMiIndex) para cada feição no conjunto de dados. Um valor positivo indica que uma feição têm feições vizinhas com valores de atributos semelhantemente altos ou baixos; esta feição é parte de um agrupamento. Um valor negativo indica que uma feição têm feições vizinhas com valores dissimilares; esta feição é um valor atípico. Em uma ou outra instância, o valor p da feição deve ser pequeno o suficiente para o agrupamento ou valor atípico ser considerado estatisticamente significativo. Para mais informações sobre determinar o significado de estatística, consulte O que é uma pontuação z? O que é valor p?. O índice I de Moran local (I) é uma medida relativa e só pode ser interpretado no contexto de sua pontuação z ou valor p calculado. O campo Cluster/Outlier Type (COType) distingue entre um agrupamento estatisticamente significativo de valores altos (HH), um agrupamento de valores baixos (LL), um valor atípico no qual um valor alto é principalmente cercado por valores baixos (HL) e um valor atípico no qual um valor baixo é principalmente cercado por valores altos (LH).
Analisar feições de área
Os dados estão disponíveis para feições de área, tais como, áreas de censo, municípios, distritos de eleitor, regiões do hospital, lotes, parques e limites de recreação, bacias, classificações de cobertura da superfície e zonas climáticas. Quando sua camada de análise tiver feições de área, você deverá especificar um campo numérico que será utilizado para localizar os valores atípicos de valores altos e baixos. Este campo pode representar o seguinte:
- Contagem (como o número de casas)
- Taxas (como a proporção da população em um nível universitário)
- Médias (como a média ou renda familiar mediana)
- Índices (como uma pontuação indicando se os gastos domésticos em produtos esportivos estão acima ou abaixo da média nacional)
Com o campo que você fornece, a ferramenta Localizar Valores Atípicos criará um mapa (a camada resultante) exibindo as áreas com valores atípicos estatisticamente significativos de valores altos (vermelho) e valores baixos (azul), como também, agrupamentos de valores altos (rosa) e valores baixos (azul claro).
Analisar feições de ponto
Uma variedade de dados estão disponíveis como feições de ponto. Os exemplos de feições frequentemente representadas como pontos incluem incidentes de crime, escolas, hospitais, eventos de chamada de emergência, acidentes de tráfego, poços de água, árvores e barcos. Alguma vezes você ficará interessado em analisar valores de dados (um campo) associados com cada feição de ponto. Em outros casos, você só estará interessado em avaliar o agrupamento ou dispersão dos pontos. A decisão sobre fornecer um campo dependerá da pergunta que você está fazendo.
Localizar valores atípicos de valores altos e baixos associados com feições de ponto
Fornece um campo de análise para responder a perguntas como Onde há valores altos e baixos anômalos? O campo que você selecionar pode representar o seguinte:
- Contagem (como o número de acidentes de tráfego nas intersecções de ruas)
- Taxas (como desemprego na cidade, onde cada cidade é representada como uma feição de ponto)
- Médias (como a média de pontuação do teste de matemática entre as escolas)
- Índices (como uma pontuação de satisfação do consumidor para revendedores de carros pelo município)
Localizar valores atípicos de contagens altas e baixas de ponto
Para alguns dados de ponto—normalmente quando cada ponto representa um evento, incidente ou indicação de presença ou ausência—não haverá um campo de análise óbvio para utilizar. Nestes casos, você pode saber onde o agrupamento é normalmente (estatistiamente significativo) intenso ou escasso. Para esta análise, feições de área (uma malha de fishnet ou grade de hexágono que a ferramenta cria ou uma camada de área que você fornece) são posicionadas sobre os pontos e o número de pontos que caem dentro de cada área é contado. A ferramenta então localiza valores atípicos das contagens altas e baixas do ponto associados com cada feição de área.
Definir onde os pontos são possíveis
Especifique uma camada de área ou desenhe áreas definindo uma área de estudo onde você deseja que a análise seja executada em todos os locais onde as feições de ponto de incidente possam ocorrer. Para esta opção, a ferramenta Localizar Valores Atípicos irá sobrepor sua área de estudo definida com uma malha fishnet (padrão) ou grade de hexágono e contar os pontos que caem dentro de cada célula da grade. Quando você não indicar onde os pontos incidentes são possíveis utilizando esta opção, a ferramenta Localizar Valores Atípicos somente analisará as células de grade que contêm pelo menos uma contagem de ponto. Quando você utilizar esta opção para definir onde os pontos são possíveis, entretanto, a análise será feita para todas as células da grade que cairem dentro dos limites das áreas que você definir.
Contar pontos dentro das áreas de agregação
Em alguns casos, feições de área, tal como áreas de censo, batidas polícias ou lotes farão mais senso para sua análise que a malha de fishnet padrão ou grade de hexágono.
Escolher para dividir por
Existem duas abordagens comuns para identificar valores altos e baixos:
- Por contagem—Quando você analisa um conjunto de dados em particular, você normalmente deseja encontrar valores atípicos do número de feições em cada área de agregação por sua área de estudo. Por exemplo, você pode encontrar valores discrepantes onde o maior número de crimes ocorreu em áreas de crime geralmente baixo ou onde o menor número de crimes ocorreu em áreas de alto crime para maximizar o efeito de seus recursos alocados.
- Por intensidade—Por outro lado, analisar e entender os padrões que levam em conta as distribuições subjacentes que influenciam um fenômeno em particular também pode ser significativo. Este conceito é normalmente conhecido como normalização, ou o processo de dividir um valor de atributo numérico por outro para minimizar diferenças em valores baseado no tamanho de áreas ou no número de feições em cada área. Por exemplo, com crime, você pode desejar entender onde há valores atípicos ou agrupamentos de números altos e baixos de crimes que levam em conta a população subjacente. Neste caso, você pode contar o número de crimes em cada área (se esta área for uma área de fishnet ou um conjunto de dados de área diferente) e dividir este número total de crimes pela população total nesta área. Isto lhe fornece uma taxa de criminalidade ou o número de crimes por habitante. Localizar áreas de valores atípicos de criminalidade por habitante responde uma pergunta diferente que também pode ajudar a orientar a tomada de decisão.
Ambos os modos de analisar os dados em sua área de estudo são válidos; só depende da pergunta que você está fazendo.
A escolha de um atributo apropriado para dividir é muito importante. Você deve confirmar que o parâmetro Dividir Por é um parâmetro que, de fato, influencia a distribuição do fenômeno em particular que você está analisando.
Quando você escolhe o parâmetro Dividir Por para Esri Population, os dados de população da Cobertura Global de Demografias da Esri são utilizados. Confirme que a resolução dos dados disponíveis para a área que você está interessado seja compatível com o tamanho das áreas que estão sendo enriquecidas (áreas de agregação que você fornece ou quadrículas de fishnet sendo criadas).
Interpretar os resultados
A saída da ferramenta Localizar Valores Atípicos é um mapa. Para os pontos ou as áreas neste mapa da camada resultante, aqueles em vermelho escuro e azul escuro indicam valores atípicos estatisticamente significativos na sua área de estudo. Aqueles em azul claro e rosa indicam agrupamento estatisticamente significativo. Os pontos ou áreas exibidos em bege, por outro lado, não são valores atípicos ou fazem parte de qualquer agrupamento estatisticamente significativo; o padrão espacial associado a essas feições podem ser o resultado do acaso. Às vezes, os resultados da sua análise indicam que não há quaisquer valores atípicos ou agrupamentos estatisticamente significativos. Estas são informações importantes. Quando um modelo espacial é aleatório, você não tem nenhuma pista sobre causas subjacentes. Nestes casos, todas as feições na camada resultante serão bege. Porém, quando você localiza valores atípicos ou agrupamentos estatisticamente significativos, os locais são pistas importantes sobre o que pode estar criando o fenômeno. Por exemplo, localizar valores atípicos espaciais estatisticamente significativos de taxas de câncer associados com determinadas toxinas ambientais que podem levar à políticas e ações projetadas para proteger as pessoas. Semelhantemente, localizar valores atípicos baixos de obesidade infantil associada com as escolas que promovem programas de esporte pode fornecer uma forte justificativa para encorajar estes tipos de programas mais amplamente.
Correção de erros
O método de estatística utilizado pela ferramenta Localizar Valores Atípicos é baseado na teoria de probabilidade e, consequentemente, precisa de um número mínimo de feições para operar de forma eficaz. Este método de estatística também exige uma variedade de valores de contagens ou valores do campo de análise. Se você estiver analisando incidentes de crime por área do censo, por exemplo, e finalizar com exatamente o mesmo número de crimes em cada área, a ferramenta não poderá solucionar. A tabela seguinte fornece uma explicação das mensagens que você pode encontrar ao utilizar a ferramenta Localizar Valores Atípicos:
Mensagem | Problema | Solução |
---|---|---|
As opções de análise que você selecionou exigem um mínimo de 60 pontos para calcular valores altos e baixos de incidência. | Não há feições de ponto suficientes na sua camada de análise de ponto para calcular resultados confiáveis. | Adicione mais pontos à sua camada de análise. Alternativamente, você pode tentar definir áreas de análise delimitadoras, para adicionar informações sobre onde a nuvem de pontos deveria ter ocorrido, mas não aconteceu. Com este método você precisa de um mínimo de 30 pontos. Você também pode fornecer áreas de agregação que cobrem seus pontos. Você precisa de um mínimo de 30 áreas de polígono e 30 pontos dentro destas áreas para esta análise. Se você tiver pelo menos 30 pontos, você pode especificar um campo de análise. Isto muda a pergunta de "onde há muitos ou poucos pontos" para "onde os valores altos e baixos do campo de análise se agrupam espacilamente". |
As opções de análise que você selecionou exigem um mínimo de 30 pontos com dados válidos no campo de análise para calcular os valores altos e baixos de incidência. | Não há pontos suficientes ou pontos suficientes associados com valores do campo de análise diferentes de nulo, na sua camada de análise para calcular resultados confiáveis. | Se você tiver menos que 30 pontos, este método de análise não será apropriado para seus dados. Se você tiver mais de 30 pontos e estiver vendo esta mensagem, o campo de análise que você especificou poderá ter valores nulos. Os pontos com valores do campo de análise nulos são ignorados. Outra possibilidade é que você tem um filtro ativo reduzindo o número de pontos disponíveis para análise. |
As opções de análise que você selecionou exigem um mínimo de 30 polígonos com dados válidos no campo de análise para calcular os valores altos e baixos de incidência. | Não há áreas de polígono suficientes ou feições de área suficientes associadas com valores do campo de análise diferentes de nulo, na sua camada de análise para calcular resultados confiáveis. | Se você tiver menos que 30 áreas de polígono, este método de análise não será apropriado para seus dados. Se você tiver mais de 30 áreas e estiver vendo esta mensagem, o campo de análise que você especificou poderá ter valores nulos. As áreas de polígono com valores do campo de análise nulos serão ignoradas. Outra possibilidade é que você tem um filtro ativo reduzindo o número das áreas de polígono disponíveis para análise. |
A opção de análise que você selecionou exige um mínimo de 30 pontos para estar dentro das áreas de polígono delimitadas. | Somente os pontos que caem dentro das áreas de análise delimitadoras que você desenha ou fornece são analisados. Para fornecer resultados confiáveis, pelo menos 30 pontos devem estar dentro das áreas de análise delimitadas. | Se você não tiver pelo menos 30 pontos, este método não será apropriado para seus dados. Com um mínimo de 30 feições, a solução normalmente é fornecer, áreas de análise delimitadoras diferentes, talvez maiores. Outra opção e fornecer uma camada de área com um mínimo de 30 polígonos de agregação que cobrem pelo menos 30 dos seus pontos. Quando você fornece áreas de agregação, a análise é apresentada nas contagens de ponto dentro de cada área. |
A opção de análise que você selecionou exige um mínimo de 30 pontos para estar dentro dos polígonos de agregação. | Somente os pontos que caem dentro dos polígonos de agregação são incluídos na análise. Para fornecer resultados confiáveis, pelo menos 30 pontos devem estar dentro das áreas de polígono que você fornece. | Se você não tiver pelo menos 30 pontos, este método não será apropriado para seus dados; caso contrário, você deverá desenhar ou fornecer áreas de análise delimitadoras que cobrem pelo menos 30 dos seus pontos. As áreas delimitadas devem refletir todos os locais onde os pontos possivelmente possam ocorrer. |
A opção de análise que você selecionou exige um mínimo de 30 áreas de agregação. | A opção que você selecionou cobre as áreas de agregação sobre seus pontos e conta o número de pontos caindo dentro de cada área. Um mínimo de 30 contagens (30 áreas) é necessário para fornecer resultados confiáveis. | Os resultados confiáveis podem ser calculados se você fornecer um mínimo de 30 pontos que caem dentro de um mínimo de 30 áreas de agregação. Se você não tiver 30 áreas de agregação, você poderá desenhar ou fornecer áreas de análise delimitadoras que cobrem pelo menos 30 dos seus pontos. Estas áreas delimitadas devem refletir todos os locais onde os pontos possivelmente possam ocorrer. |
Os valores altos e baixos de incidência não podem ser calculados quando o número de pontos em toda a área do polígono é idêntico. Tente áreas de polígono diferentes ou diferentes opções de análise. | Quando a ferramenta Localizar Valor Alto de Incidência contou o número de pontos dentro de cada área de agregação, ela verificou que as contagens foram todas idênticas. Para computar os resultados, esta ferramenta exige pelo menos alguma variação nos valores da contagem obtidos. | Você pode fornecer áreas de agregação alternativas que não resultam em todas as áreas tendo o exato número de pontos. Ao invés das áreas de agregação, você também pode desenhar ou fornecer áreas de análise delimitadoras. Alternativamente, você pode especificar um campo de análise. Porém, isto muda a pergunta de "onde há muitos ou poucos pontos" para "onde os valores altos e baixos do campo de análise se agrupam espacilamente". |
Não há variação suficiente em locais de ponto para calcular valores altos e baixos de incidência. Pontos coincidentes, por exemplo, reduzem a variação espacial. Você pode tentar fornecer uma área delimitada, áreas de agregação (um mínimo de 30) ou um Campo de Análise. | Baseado no número de pontos e como estão distribuídos, a ferramenta cria uma malha de fishnet para cobrir seus pontos. Após contar o número de pontos que caem dentro de cada quadrícula do fishnet e remover quadrículas com contagesn de zero, ficaram menos que 30 quadrículas. Esta ferramenta exige um mínimo de 30 contagens (30 quadrículas) para fornecer resultados confiáveis. | Se os seus pontos ocuparem alguns locais únicos (se tiver muitos pontos coincidentes), uma boa solução é fornecer áreas de agregação que cobrem seus pontos ou desenhar e fornecer áreas de análise delimitadoras indicando onde os pontos são ou não possíveis. Outra opção é especificar um campo de análise. Porém, isto muda a pergunta de "onde há muitos ou poucos pontos" para "onde os valores altos e baixos do campo de análise se agrupam espacilamente". |
Não há variação suficiente entre os pontos dentro das áreas de polígono delimitadas. Você pode tentar fornecer limites maiores. | Baseado em locais de ponto e número de pontos, a ferramenta cria uma malha de fishnet para cobrir seus pontos. Após contar o número de pontos que caem dentro de cada quadrícula de fishnet e remover quarículas que estão fora das suas áreas de análise delimitadoras, restaram menos que 30 quadrículas de fishnet. Esta ferramenta exige um mínimo de 30 contagens (30 quadrículas) para fornecer resultados confiáveis. | Se os seus pontos estiverem localizados em uma variedade de locais dentro das áreas de análise delimitadas, você precisará apenas fazer ou fornecer limites maiores. Se os seus pontos ocuparem alguns locais únicos (se tiver muitos pontos coincidentes), uma boa solução é fornecer áreas de agregação que cobrem seus pontos. Outra opção é especificar um campo de análise. Porém, isto muda a pergunta de "onde há muitos ou poucos pontos" para "onde os valores altos e baixos do campo de análise se agrupam espacilamente". |
Todos os valores para seu campo de análise são provavelmente os mesmos. Os valores altos e baixos de incidência não podem ser calculados quando não tiver nenhuma variação no campo sendo analisado. | Mais provável que você tenha especificado um campo de análise com o mesmo valor para todas as suas feições de área ou ponto na camada de análise. A estatística utilizada por esta ferramenta não pode resolver isto a menos que exista uma variedade de valores para trabalhar. | Você pode especificar um campo de análise diferente ou, para feições de ponto, analisar densidades do ponto, ao invés dos valores de ponto. |
Não foi possível calcular valores altos e baixos de incidência para os dados fornecidos. Se apropriado, tente especificar um Campo de Análise. | Embora bastante improvável, quando a ferramenta criou uma malha de fishnet e contou o número de pontos dentro de cada quadrícula, as contagens para todas as quadrículas foram idênticas. | Forneça suas próprias áreas de agregação, desenhe ou forneça áreas de análise delimitadoras ou especifique um campo de análise. |
O Tamanho da Célula deve ser menor que a Faixa de Distância. | Você forneceu um valor de Faixa de Distância que é menor que o tamanho de cada célula da grade. | Revise as unidades especificadas para Faixa de Distância e Tamanho da Célula, utilize o valor padrão calculado pela ferramenta ou utilize um valor que seja maior que o tamanho de uma célula de grade única. |
Informações adicionais sobre os algoritmos utilizados pela ferramenta Localizar Valores Atípicos podem ser localizadas em Como funciona Análise de Valor Atípico Otimizada .
Ferramentas semelhantes
Utilize Localizar Valores Atípicos para determinar se há quaisquer valores atípicos estatisticamente significativos no padrão espacial dos seus dados. Outras ferramentas que podem ser úteis são descritas abaixo.
Ferramentas de análise do Map Viewer
Para localizar agrupamentos estatisticamente significativos de valores altos e baixos no padrão espacial de seus dados, use a ferramenta Localizar Valor Alto de Incidência.
Para usar medidas de ponto ou linha para criar um mapa de densidade, use a ferramenta Calcular Densidade.
Ferramentas de análise do ArcGIS Pro
Localizar Valores Atípicos executa a mesma estatística utilizada nas ferramentas Análise de Agrupamento e Dados Atípicos (Anselin Local Moran's I) e Análise de Valor Atípico Otimizada.