Skip To Content

Localizar Valores Atípicos

Find Outliers The Find Outliers tool will determine if there are any statistically significant outliers in the spatial pattern of your data.

Diagrama de fluxo de trabalho

Diagrama do fluxo de trabalho Localizar Valores Atípicos

Exemplos

  • Onde localizamos padrões de gastos anômalos em Los Angeles?
  • Onde estão os limites entre riqueza e pobreza na área de estudo?
  • Na sua área, há lojas de varejo que estão lutando contra as baixas vendas, apesar de estarem cercadas por lojas de alto desempenho?
  • Onde estão as taxas inesperadamente altas de diabete pela área de estudo?
  • Há municípios nos Estados Unidos com probabilidade de vida baixa comparados aos seus municípios vizinhos?

Anotações de uso

As feições de entrada podem ser de pontos ou de áreas.

O parâmetro Localizar valores atípicos de é utilizado para avaliar a disposição espacial das suas feições. Se as suas feições forem áreas, um campo deverá ser escolhido. Os valores atípicos serão determinados utilizando os números no campo escolhido. As feições de ponto podem ser analisadas utilizando um campo ou a opção Contagens de Ponto. Se Contagens de Ponto for utilizado, a ferramenta determinará se os próprios pontos estão dispersados ou agrupados, ao invés de valores altos e baixos de campo.

Se os pontos estiverem sendo analisados com Contagens de Ponto, duas opções adicionais estarão disponíveis. O parâmetro Contagem de pontos dentro permite aos pontos serem agregados dentro de uma Grade de Fishnet, Grade do Hexágono ou uma camada de área do seu Conteúdo, como municípios ou ceps. O parâmetro Definir onde os pontos são possíveis é utilizado para criar uma área ou múltiplas áreas de interesse. As três opções para este parâmetro são Nenhum, significando que todos os pontos são utilizados, uma área definida por uma camada de área do seu Conteúdo, e áreas criadas utilizando a ferramenta Desenhar.

Seus dados podem ser normalizados utilizando o parâmetro Dividir por. Os dados População da Esri utilizam GeoEnriquecimento e exigem o uso de créditos. Outra opção é normalizar utilizando um campo da camada de entrada. Alguns possíveis valores que podem ser utilizados para normalização incluem número de casas ou área.

A estatística empregada por esta ferramenta utiliza permutações para determinar como seria localizar a distribuição espacial real dos valores que você está analisando ao comparar seus valores a um conjunto de valores gerados aleatoriamente. A escolha do número de permutações no parâmetro Otimizar para é um equilíbrio entre Precisão e tempo de processamento aumentado (Velocidade). Um número de permutações mais baixo pode ser utilizado ao explorar primeiramente um problema, mas é melhor prática aumentar as permutações Precisão para resultados finais.

O menu suspenso Opções pode ser utilizado para configurar um Tamanho de Célula ou Faixa de Distância para sua análise.

A camada de saída terá campos adicionais contendo informações como Tipo de Agrupamento/Dados Atípicos, o número de vizinhos de cada feição incluída em sua análise e o Índice Local Moran's I, Valor e Pontuação de cada feição. A camada de saída também contém informações sobre a análise de estatística na seção Descrição dos seus Detalhes do Item.

Como funciona Localizar Valores Atípicos

Já que nossos olhos e cérebro tentam localizar padrões naturalmente até quando não há, pode ser difícil saber se os padrões em seus dados são o resultado dos processos espaciais reais no trabalho ou apenas resultados aleatórios. Isto é devido ao fato dos pesquisadores e analistas utilizarem métodos estatísticos como Localizar Valores Atípicos (Análise Local Moran's I) para quantificar padrões espaciais. Quando você localiza um valor atípico estatisticamente significativo ou agrupamento em seus dados, você tem informações valiosas. Saber onde e quando ocorrem um valor atípico e agrupamentos, pode fornecer pistas importantes sobre os processos promovendo os modelos que você está visualizando. Saber que roubos residenciais, por exemplo, são constantemente mais altos em determinados bairros é uma informação vital se você precisar projetar estratégias de prevenção efetivas, alocar recursos de polícia escassos, iniciar programas de cuidados da vizinhança, autorizar investigações criminais detalhadas ou identificar potenciais suspeitos.

A ferramenta Localizar Valores Atípicos calcula um Índice Moran's local (LMiIndex) para cada feição no conjunto de dados. Um valor positivo indica que uma feição têm feições vizinhas com valores de atributos semelhantemente altos ou baixos; esta feição é parte de um agrupamento. Um valor negativo indica que uma feição têm feições vizinhas com valores dissimilares; esta feição é um valor atípico. Em uma ou outra instância, o valor p da feição deve ser pequeno o suficiente para o agrupamento ou valor atípico ser considerado estatisticamente significativo. Para mais informações sobre determinar o significado de estatística, consulte O que é uma pontuação z? O que é valor p?. Note que o índice Moran's I local (I) é uma medida relativa e pode ser interpretada somente dentro do contexto da sua pontuação z ou valor p computados. O campo (COType) Tipo de Agrupamento/Dados Atípicos distingue entre um agrupamento estatisticamente significativo de valores altos (HH), um agrupamento de valores baixos (LL), um valor atípico no qual um valor alto é principalmente cercado por valores baixos (HL) e um valor atípico no qual um valor baixo é principalmente cercado por valores altos (LH).

Analisar feições de área

Muitos dados estão disponíveis para feições de área, tais como, áreas de censo, municípios, distritos de eleitor, regiões do hospital, lotes, parques e limites de recreação, bacias, classificações de cobertura da superfície e zonas climáticas. Quando sua camada de análise tiver feições de área, você precisará especificar um campo numérico que será utilizado para localizar os valores atípicos de valores altos e baixos. Este campo pode representar o seguinte:

  • Contagem (como o número de casas)
  • Taxas (como a proporção da população em um nível universitário)
  • Médias (como a média ou renda familiar mediana)
  • Índices (como uma pontuação indicando se os gastos domésticos em produtos esportivos estão acima ou abaixo da média nacional)

Com o campo que você fornece, a ferramenta Localizar Valores Atípicos criará um mapa (a camada resultante) exibindo as áreas com valores atípicos estatisticamente significativos de valores altos (vermelho) e valores baixos (azul), como também, agrupamentos de valores altos (rosa) e valores baixos (azul claro).

Analisar feições de ponto

Uma variedade de dados estão disponíveis como feições de ponto. Os exemplos de feições frequentemente representadas como pontos incluem incidentes de crime, escolas, hospitais, eventos de chamada de emergência, acidentes de tráfego, poços de água, árvores e barcos. Alguma vezes você ficará interessado em analisar valores de dados (um campo) associados com cada feição de ponto. Em outros casos, você somente estará interessado em avaliar o agrupamento ou dispersão dos pontos. A decisão para fornecer um campo ou não dependerá da pergunta que você está fazendo.

Localizar valores atípicos de valores altos e baixos associados com feições de ponto

Analisando pontos com um campo de análise Você desejará fornecer um campo de análise para responder perguntas como, Onde há valores anômalos altos e baixos? O campo que você selecionar pode representar algum dos seguintes:

  • Contagem (como o número de acidentes de tráfego nas intersecções de ruas)
  • Taxas (como desemprego na cidade, onde cada cidade é representada como uma feição de ponto)
  • Médias (como a média de pontuação do teste de matemática entre as escolas)
  • Índices (como uma pontuação de satisfação do consumidor para revendedores de carros pelo município)

Localizar valores atípicos de contagens altas e baixas de ponto

Analisando pontos, nenhum campo de análise Para alguns dados de ponto, normalmente quando cada ponto representa um evento, incidente ou indicação de presença/ausência, não haverá um campo de análise óbvio para utilizar. Nestes casos, você apenas quer saber onde o agrupamento é normalmente (estatistiamente significativo) intenso ou escasso. Para esta análise, feições de área (uma malha de fishnet ou grade de hexágono que a ferramenta cria para você ou uma camada de área que você fornece) são posicionadas sobre os pontos e o número de pontos que caem dentro de cada área é contado. A ferramenta então localiza valores atípicos das contagens altas e baixas do ponto associados com cada feição de área.

Definir onde os pontos são possíveis

Pontos, nenhum campo de análise, área de estudo de limite Especifique uma camada de área ou desenhe áreas definindo uma área de estudo onde você deseja que a análise seja executada em todos os locais onde as feições de ponto de incidente possam ocorrer. Para esta opção, a ferramenta Localizar Valores Atípicos irá sobrepor sua área de estudo definida com uma malha fishnet (padrão) ou grade de hexágono e contar os pontos que caem dentro de cada célula da grade. Quando você não indicar onde os pontos incidentes são possíveis utilizando esta opção, a ferramenta Localizar Valores Atípicos somente analisará as células de grade que contêm pelo menos uma contagem de ponto. Quando você utilizar esta opção para definir onde os pontos são possíveis, entretanto, a análise será feita para todas as células da grade que cairem dentro dos limites das áreas que você definir.

Contar pontos dentro das suas próprias áreas de agregação

Pontos, nenhum campo de análise, áreas de agregação Em alguns casos, feições de área, tal como áreas de censo, batidas polícias ou lotes farão mais senso para sua análise que a malha de fishnet padrão ou grade de hexágono.

Escolher para dividir por

Normalizando seu conjunto de dados Há dois métodos comuns para identificar valores atípicos:

  • Por contagem—Quando você analisa um conjunto de dados em particular, você normalmente deseja encontrar valores atípicos do número de feições em cada área de agregação por sua área de estudo. Por exemplo, talvez queira localizar valores atípicos onde os números mais altos de crimes ocorreram em áreas de crime geralmente baixas ou onde os números mais baixos de crimes ocorreram em áreas de altos crimes para maximizar o efeito dos seus recursos alocados.
  • Por intensidade—Por outro lado, analisar e entender os padrões que levam em conta as distribuições subjacentes que influenciam um fenômeno em particular também pode ser significativo. Este conceito é normalmente conhecido como normalização, ou o processo de dividir um valor de atributo numérico por outro para minimizar diferenças em valores baseado no tamanho de áreas ou no número de feições em cada área. Por exemplo, com crime, você pode desejar entender onde há valores atípicos ou agrupamentos de números altos e baixos de crimes que levam em conta a população subjacente. Neste caso, você contará o número de crimes em cada área (se esta área for uma área de fishnet ou um conjunto de dados de área diferente) e dividirá este número total de crimes pela população total nesta área. Isto lhe fornecerá uma taxa de criminalidade ou o número de crimes por habitante. Localizar áreas de valores atípicos de criminalidade por habitante responde uma pergunta diferente que também pode ajudar a orientar a tomada de decisão.

Ambos os modos de analisar os dados em sua área de estudo são válidos; só depende da pergunta que você está fazendo.

A escolha de um atributo apropriado para dividir é muito importante. Você precisa ter certeza que o atributo Dividir Por é um atributo que, de fato, influencia a distribuição do fenômeno em particular que você está analisando.

Quando você escolhe Dividir por População da Esri, os dados de população de Cobertura Global de Demografias da Esri são utilizados. Certifique-se de olhar para a resolução dos dados disponíveis para a área que você está interessado para garantir que seja compatível com o tamanho das áreas que estão sendo enriquecidas (áreas de agregação que você fornece ou quadrículas de fishnet sendo criadas).

Interpretar os resultados

A saída da ferramenta Localizar Valores Atípicos é um mapa. Para os pontos ou as áreas neste mapa da camada resultante, aqueles em vermelho escuro e azul escuro indicam valores atípicos estatisticamente significativos na sua área de estudo. Aqueles em azul claro e rosa indicam agrupamento estatisticamente significativo. Os pontos ou as áreas exibidas utilizando a cor bege, por outro lado, não são valores atípicos ou parte de nenhum agrupamento estatisticamente significativo; o modelo espacial associado com estas feições poderá muito provavelmente ser o resultado da alteração aleatória. Às vezes, os resultados da sua análise indicam que não há quaisquer valores atípicos ou agrupamentos estatisticamente significativos. Estas são informações importantes para ter. Quando um modelo espacial é aleatório, você não tem nenhuma pista sobre causas subjacentes. Nestes casos, todas as feições na camada resultante serão bege. Porém, quando você localiza valores atípicos ou agrupamentos estatisticamente significativos, os locais são pistas importantes sobre o que pode estar criando o fenômeno. Por exemplo, localizar valores atípicos espaciais estatisticamente significativos de taxas de câncer associados com determinadas toxinas ambientais que podem levar à políticas e ações projetadas para proteger as pessoas. Semelhantemente, localizar valores atípicos baixos de obesidade infantil associada com as escolas que promovem programas de esporte pode fornecer uma forte justificativa para encorajar estes tipos de programas mais amplamente.

Correção de erros

O método de estatística utilizado pela ferramenta Localizar Valores Atípicos é baseado na teoria de probabilidade e, consequentemente, precisa de um número mínimo de feições para operar de forma eficaz. Este método de estatística também exige uma variedade de valores de contagens ou valores do campo de análise. Se você estiver analisando incidentes de crime por área do censo, por exemplo, e incrivelmente finalizado com exatamente o mesmo número de crimes em cada área, a ferramenta não poderá solucionar. A tabela seguinte fornece uma explicação das mensagens que você pode encontrar ao utilizar a ferramenta Localizar Valores Atípicos:

MensagemProblemaSolução

As opções de análise que você selecionou exigem um mínimo de 60 pontos para calcular valores altos e baixos de incidência.

Não há feições de ponto suficientes na sua camada de análise de ponto para calcular resultados confiáveis.

A solução óbvia é adicionar mais pontos na sua camada de análise.

Alternativamente, você pode tentar definir áreas de análise delimitadas, e assim adicionar informações sobre onde os pontos deveriam ter ocorrido, mas não aconteceu. Com este método você precisará de um mínimo de 30 pontos.

Você também pode tentar fornecer áreas de agregação que cobrem seus pontos. Você precisará de um mínimo de 30 áreas de polígono e 30 pontos dentro destas áreas para esta análise.

Se você tiver pelo menos 30 pontos talvez queira especificar um campo de análise. Isto muda a pergunta de "onde há muitos ou poucos pontos" para "onde os valores altos e baixos do campo de análise se agrupam espacilamente".

As opções de análise que você selecionou exigem um mínimo de 30 pontos com dados válidos no campo de análise para calcular os valores altos e baixos de incidência.

Não há pontos suficientes ou pontos suficientes associados com valores do campo de análise diferentes de NULL, na sua camada de análise para calcular resultados confiáveis.

Infelizmente, se você tiver menos que 30 pontos, este método de análise não será apropriado para seus dados. Se você tiver mais de 30 pontos e estiver vendo esta mensagem, o campo de análise que você especificou poderá ter valores NULL. Os pontos com valores do campo de análise NULL serão ignorados. Outra possibilidade é que você tem um Filtro ativo reduzindo o número de pontos disponíveis para análise.

As opções de análise que você selecionou exigem um mínimo de 30 polígonos com dados válidos no campo de análise para calcular os valores altos e baixos de incidência.

Não há áreas de polígono suficientes ou feições de área suficientes associadas com valores do campo de análise diferentes de NULL, na sua camada de análise para calcular resultados confiáveis.

Infelizmente, se você tiver menos que 30 áreas de polígono, este método de análise não será apropriado para seus dados. Se você tiver mais de 30 pontos e estiver vendo esta mensagem, o campo de análise que você especificou poderá ter valores NULL. As áreas de polígono com valores do campo de análise NULL serão ignoradas. Outra possibilidade é que você tem um Filtro ativo reduzindo o número das áreas de polígono disponíveis para análise.

A opção de análise que você selecionou exige um mínimo de 30 pontos para estar dentro das áreas de polígono delimitadas.

Somente os pontos que caem dentro das áreas de análise delimitadas que você desenha ou fornece serão analisados. Para fornecer resultados confiáveis, pelo menos 30 pontos devem estar dentro das áreas de análise delimitadas.

Infelizmente, se você não tiver pelo menos 30 pontos, este método não será apropriado para seus dados. Com um mínimo de 30 feições, porém, a solução aqui normalmente será fornecer, áreas de análise delimitadas diferentes, talvez maiores.

Outra opção será fornecer uma camada de área com um mínimo de 30 polígonos de agregação que cobrem pelo menos 30 dos seus pontos. Quando você fornece áreas de agregação, a análise é apresentada nas contagens de ponto dentro de cada área.

A opção de análise que você selecionou exige um mínimo de 30 pontos para estar dentro dos polígonos de agregação.

Somente os pontos que caem dentro dos polígonos de agregação serão incluídos na análise. Para fornecer resultados confiáveis, pelo menos 30 pontos devem estar dentro das áreas de polígono que você fornece.

Infelizmente, se você não tiver pelo menos 30 pontos, este método não será apropriado para seus dados; caso contrário, você deverá desenhar ou fornecer áreas de análise delimitadasque cobrem pelo menos 30 dos seus pontos. As áreas delimitadas devem refletir todos os locais onde os pontos possivelmente possam ocorrer.

A opção de análise que você selecionou exige um mínimo de 30 áreas de agregação.

A opção que você selecionou cobrirá as áreas de agregação sobre seus pontos e então contará o número de pontos caindo dentro de cada área. Um mínimo de 30 contagens (30 áreas) é necessário para fornecer resultados confiáveis.

Os resultados confiáveis podem ser calculados se você fornecer um mínimo de 30 pontos que caem dentro de um mínimo de 30 áreas de agregação. Se você não tiver 30 áreas de agregação, você poderá tentar desenhar ou fornecer áreas de análise delimitadas que cobrem pelo menos 30 dos seus pontos. Estas áreas delimitadas devem refletir todos os locais onde os pontos possivelmente possam ocorrer.

Os valores altos e baixos de incidência não podem ser calculados quando o número de pontos em toda a área do polígono é idêntico. Tente áreas de polígono diferentes ou diferentes opções de análise.

Quando a ferramenta Localizar Valor Alto de Incidência contou o número de pontos dentro de cada área de agregação, ela verificou que as contagens foram todas idênticas. Para computar os resultados, esta ferramenta exige pelo menos alguma variação nos valores da contagem obtidos.

Você pode fornecer áreas de agregação alternativas que não resultarão em todas as áreas tendo o exato número de pontos.

Ao invés das áreas de agregação, você também pode tentar desenhar ou fornecer áreas de análise delimitadas.

Alternativamente, você pode especificar um campo de análise. Porém, isto muda a pergunta de "onde há muitos ou poucos pontos" para "onde os valores altos e baixos do campo de análise se agrupam espacilamente".

Não há variação suficiente em locais de ponto para calcular valores altos e baixos de incidência. Pontos coincidentes, por exemplo, reduzem a variação espacial. Você pode tentar fornecer uma área delimitada, áreas de agregação (um mínimo de 30) ou um Campo de Análise.

Baseado no número de pontos e como estão distribuídos, a ferramenta cria uma malha de fishnet para cobrir seus pontos. Após contar o número de pontos que caem dentro de cada quadrícula do fishnet e remover quadrículas com contagesn de zero, ficaram menos que 30 quadrículas. Esta ferramenta exige um mínimo de 30 contagens (30 quadrículas) para fornecer resultados confiáveis.

Se os seus pontos ocuparem alguns poucos locais únicos (se tiver muitos pontos coincidentes), uma boa solução é fornecer áreas de agregação que cobrem seus pontos ou desenhar e fornecer áreas de análise delimitadas indicando onde os pontos são ou não possíveis.

Outra opção é especificar um campo de análise. Porém, isto muda a pergunta de "onde há muitos ou poucos pontos" para "onde os valores altos e baixos do campo de análise se agrupam espacilamente".

Não há variação suficiente entre os pontos dentro das áreas de polígono delimitadas. Você pode tentar fornecer limites maiores.

Baseado em locais de ponto e número de pontos, a ferramenta cria uma malha de fishnet para cobrir seus pontos. Após contar o número de pontos que caem dentro de cada quadrícula de fishnet e remover quarículas que estão fora das suas áreas de análise delimitadas, ficaram menos que 30 quadrículas de fishnet. Esta ferramenta exige um mínimo de 30 contagens (30 quadrículas) para fornecer resultados confiáveis.

Se os seus pontos estiverem localizados em uma variedade de locais dentro das áreas de análise delimitadas, você precisará apenas fazer ou fornecer limites maiores. Se os seus pontos ocuparem alguns poucos locais únicos (se tiver muitos pontos coincidentes), uma boa solução é fornecer áreas de agregação que cobrem seus pontos.

Outra opção é especificar um campo de análise. Porém, isto muda a pergunta de "onde há muitos ou poucos pontos" para "onde os valores altos e baixos do campo de análise se agrupam espacilamente".

Todos os valores para seu campo de análise são provavelmente os mesmos. Os valores altos e baixos de incidência não podem ser calculados quando não tiver nenhuma variação no campo sendo analisado.

Mais provável que você tenha especificado um campo de análise com o mesmo valor para todas as suas feições de área ou ponto na camada de análise. A estatística utilizada por esta ferramenta não pode resolver isto a menos que exista uma variedade de valores para trabalhar.

Você pode especificar um campo de análise diferente ou, para feições de ponto, analisar densidades do ponto, ao invés dos valores de ponto.

Não foi possível calcular valores altos e baixos de incidência para os dados fornecidos. Se apropriado, tente especificar um Campo de Análise.

Enquanto bastante improvável, quando a ferramenta criou uma malha de fishnet e contou o número de pontos dentro de cada quadrícula, as contagens para todas as quadrículas foram idênticas.

A solução seria fornecer suas próprias áreas de agregação, desenhar ou fornecer áreas de análise delimitadas ou especificar um campo de análise.

O Tamanho da Célula deve ser menor que a Faixa de Distância.

Você forneceu um valor de Faixa de Distância que é menor que o tamanho de cada célula da grade.

Marque as unidades especificadas para ambos Faixa de Distância e Tamanho da Célula, utilize o valor padrão calculado pela ferramenta ou utilize um valor que é maior que o tamanho de uma célula de grade única.

Informações adicionais sobre os algoritmos utilizados pela ferramenta Localizar Valores Atípicos podem ser localizadas em Como funciona Análise de Valor Atípico Otimizada.

Ferramentas semelhantes

Utilize Localizar Valores Atípicos para determinar se há quaisquer valores atípicos estatisticamente significativos no padrão espacial dos seus dados. Outras ferramentas que podem ser úteis são descritas abaixo.

Ferramentas de análise do Map Viewer

Se você estiver interessado em localizar agrupamentos estatisticamente significativos de valores altos e baixos no padrão espacial dos seus dados, utilize a ferramenta Localizar Valor Alto de Incidência.

Se você estiver utilizando medições de ponto ou de linha para criar um mapa de densidade, utilize a ferramenta Calcular Densidade.

Ferramentas de análise do ArcGIS Desktop

Localizar Valores Atípicos executa a mesma estatística utilizada nas ferramentas Análise de Agrupamento e Dados Atípicos (Anselin Local Moran's I) e Análise de Valor Atípico Otimizada.