Skip To Content

Regressão Linear Generalizada

Regressão Linear GeneralizadaExecuta Regressão Linear Generalizada (GLR) para gerar previsões ou para modelar uma variável dependente em termos de sua relação com um conjunto de variáveis explanatórias. Esta ferramenta pode ser utilizada para ajustar os modelos contínuos (Gaussiano), binário (logística) e contagem (Poisson).

Diagrama do fluxo de trabalho

Diagrama do fluxo de trabalho da Regressão Linear Generalizada

Análise utilizando GeoAnalytics Tools

A análise usando GeoAnalytics Tools é executada usando processamento distribuído através de múltiplas máquinas e núcleos do ArcGIS GeoAnalytics Server . GeoAnalytics Tools e ferramentas de análise da feição padrão no ArcGIS Enterprise têm diferentes parâmetros e recursos. Para aprender mais sobre estas diferenças, consulte Diferenças da ferramenta da análise de feição.

Exemplos

  • Como analista de GIS em uma empresa de serviços públicos, você tem um conjunto de dados de interrupções de energia, como também, dados meteorológicos extremos. Você enriquece seus dados de interrupção utilizando as ferramentas Construir Grade de Múltiplas Variáveis e Enriquecer da Grade de Múltiplas Variáveis para criar um conjunto de dados com informações meteorológicas extremas para as interrupções. Você utiliza a Regressão Linear Generalizada para determinar o evento que levou à falta de energia. Agora que você tem estas informações, é possível prever interrupções e alocar recursos.
  • Como um analista de uma cidade grande, você tem históricos de registros de chamadas 911, como também, informações demográficas. Você precisa responder as seguintes perguntas: Quais variáveis efetivamente predizem o volume de chamadas 911? Considerando as projeções futuras, qual é a demanda esperada pelos recursos de resposta a emergências?

Anotações de uso

Esta ferramenta pode ser utilizada em dois modos de operação. A opção Ajustar um modelo para avaliar o desempenho do modelo pode ser utilizada para avaliar o desempenho de diferentes modelos à medida que você explora diferentes variáveis explanatórias e configurações da ferramenta. Após um bom modelo ser encontrado, você poderá utilizar a opção Ajustar um modelo e prever valores .

Utilize o parâmetro Escolha uma camada para gerar um modelo com um campo representando os fenômenos que você está modelando (Escolha o campo para modelar) e um ou mais campos representando as variáveis explanatórias. Estes campos devem ser numéricos e ter um intervalo de valores. Feições que contêm valores ausentes na variável dependente ou explanatória serão excluídas da análise. Se você deseja modificar valores nulos, utilize a ferramenta Calcular Campo primeiro para criar uma nova camada com valores atualizados.

A ferramenta Regressão Linear Generalizada também produz feições de saída e diagnósticos. Camadas de feição de saída são automaticamente adicionadas ao mapa com um esquema de renderização aplicado ao modelo de residuais. Uma explicação completa de cada saída é fornecida abaixo.

É importante utilizar o modelo correto (Contínuo, Binário ou Contagem) na sua análise para obter resultados precisos de sua análise de regressão.

Os resultados de resumo do modelo e os diagnósticos são gravados na janela de mensagens e os gráficos serão criados abaixo da classe de feição de saída. Os diagnósticos reportados dependem do Tipo de Modelo. As três opções para tipo de modelo são como segue:

  • Utilize o tipo de modelo Contínuo (Gaussian) se a sua variável dependente puder assumir uma ampla gama de valores, como temperatura ou total de vendas. Idealmente, sua variável dependente será normalmente distribuída.
  • Utilize um tipo de modelo Binário (logística) se a sua variável dependente puder assumir um dos dois valores possíveis, como sucesso e falha ou presença e ausência. O campo que contém sua variável dependente deve ser numérico e conter somente uns e zeros. Deve haver variação de uns e zeros em seus dados.

  • Considere utilizar o tipo de modelo Contagem (Poisson) se a sua variável dependente for discreta e representar o número de ocorrências de um evento, como uma contagem de crimes. Os modelos de contagem também podem ser utilizados se a sua variável dependente representar uma taxa e o denominador da taxa for um valor fixo, como vendas por mês ou número de pessoas com câncer por 10.000 na população. Um modelo Contagem assume que a média e a variância da variável dependente são iguais e os valores de sua variável dependente não podem ser negativos ou conter decimais.

Os parâmetros da variável dependente e da variável explanatória devem ser campos numéricos contendo um intervalo de valores. Esta ferramenta não pode resolver quando as variáveis têm os mesmos valores (se todos os valores para um campo forem 9.0, por exemplo).

Recursos com um ou mais valores nulos ou valores de string vazios em campos de previsão ou explanatórios serão excluídos da saída. Se necessário, você pode modificar os valores utilizando Calcular Campo.

Você deve inspecionar visualmente as previsões inferiores e superiores evidentes em seus resíduos de regressão para verificar se eles fornecem pistas sobre possíveis variáveis ausentes do seu modelo de regressão.

Você pode utilizar o modelo de regressão que foi criado para fazer previsões para outras feições. Criar estas previsões exige que cada feição de previsão (Escolha uma camada para prever valores) tenha valores para cada uma das variáveis explanatórias fornecidas. Se os nomes de campo das feições de entrada e parâmetros dos locais de previsão não corresponderem, um parâmetro de correspondência da variável será fornecido. Ao combinar as variáveis explanatórias, os campos das feições de entrada e parâmetros dos locais de previsão deverão ser do mesmo tipo (por exemplo, campos duplos devem ser correspondidos com campos duplos).

Saídas

A ferramenta Regressão Linear Generalizada produz uma variedade de saídas. Um resumo do modelo GLR e resumos de estatística estão disponíveis na página de item do portal e como uma feição na sua camada. Para acessar o resumo dos seus resultados, clique em Mostrar Resultados Mostrar Resultados na sua camada resultante no Map Viewer. A ferramenta gera pelo menos uma camada de saída e uma saída opcional prevista. As feições de saída são automaticamente adicionadas no Map Viewer com um esquema de renderização de ponto ativo e não ativo aplicado ao modelo residual. Os diagnósticos gerados dependem do tipo de modelo das feições de entrada e são descritos abaixo.

Contínuo (Gaussian)

Interpretar mensagens e diagnósticos

  • AIC—Esta é uma medida de desempenho do modelo e pode ser utilizada para comparar modelos de regressão. Levando em conta a complexidade do modelo, o modelo com o menor valor de AIC fornece um melhor ajuste aos dados observados. O AIC não é uma medida absoluta do bom ajuste, mas é útil para comparar modelos com diferentes variáveis explanatórias, desde que se apliquem à mesma variável dependente. Se os valores de AIC para dois modelos diferirem em mais de 3, o modelo com o valor de AIC mais baixo será considerado mais preciso.
  • AICc—AICc aplica uma correção de polarização ao AIC para amostras pequenas. O AICc abordará a AIC conforme o número de feições no aumento de entrada. Consulte a AIC acima.
  • R2 Múltiplo—O R2 é uma medida de bom ajuste. Seu valor varia de 0.0 a 1.0, com valores mais altos sendo preferíveis. Pode ser interpretado como a proporção de variância da variável dependente contabilizada pelo modelo de regressão. O denominador para o cálculo R2 é a soma dos valores das variáveis dependentes ao quadrado. Adicionar uma variável explanatória extra ao modelo não altera o denominador, mas altera o numerador; isso dá a impressão de melhora no ajuste do modelo que pode não ser real. Consulte o R2 Ajustado abaixo.
  • R2 Ajustado—Por causa do problema descrito acima para o valor de R2, os cálculos para o valor de R2 ajustado normalizam o numerador e o denominador por seus graus de liberdade. Isto tem o efeito de compensar o número de variáveis em um modelo e, consequentemente, o valor de R2 Ajustado é quase sempre menor que o valor de R2. No entanto, ao fazer este ajuste, você perde a interpretação do valor como uma proporção da variação explanada. Na Regressão Geograficamente Ponderada (GWR), o número efetivo de graus de liberdade é uma função de vizinhança utilizada, então o ajuste pode ser bastante marcado em comparação com um modelo global como GLR. Por esta razão, a AICc é preferida como um meio de comparar modelos.

Binário (Logística)

Interpretar mensagens e diagnósticos

  • AIC—Esta é uma medida de desempenho do modelo e pode ser utilizada para comparar modelos de regressão. Levando em conta a complexidade do modelo, o modelo com o menor valor de AIC fornece um melhor ajuste aos dados observados. O AIC não é uma medida absoluta do bom ajuste, mas é útil para comparar modelos com diferentes variáveis explanatórias, desde que se apliquem à mesma variável dependente. Se os valores de AIC para dois modelos diferirem em mais de 3, o modelo com o valor de AIC mais baixo será considerado mais preciso.
  • AICc—AICc aplica uma correção de polarização ao AIC para amostras pequenas. O AICc abordará a AIC conforme o número de feições no aumento de entrada. Consulte a AIC acima.

Contagem (Poisson)

Interpretar mensagens e diagnósticos

  • AIC—Esta é uma medida de desempenho do modelo e pode ser utilizada para comparar modelos de regressão. Levando em conta a complexidade do modelo, o modelo com o menor valor de AIC fornece um melhor ajuste aos dados observados. O AIC não é uma medida absoluta do bom ajuste, mas é útil para comparar modelos com diferentes variáveis explanatórias, desde que se apliquem à mesma variável dependente. Se os valores de AIC para dois modelos diferirem em mais de 3, o modelo com o valor de AIC mais baixo será considerado mais preciso.
  • AICc—AICc aplica uma correção de polarização ao AIC para amostras pequenas. O AICc abordará a AIC conforme o número de feições no aumento de entrada. Consulte a AIC acima.

Limitações

A implementação do GeoAnalytics da Regressão Linear Generalizada tem as seguintes limitações:

  • É um modelo de regressão global e não leva em conta a distribuição espacial dos dados.
  • A análise não se aplica ao teste de Moran sobre os residuais.
  • Conjuntos de dados de feição (pontos, linhas, polígonos e tabelas) são suportados como entrada; rasters não são suportados.
  • Você não pode classificar valores em múltiplas classes.

Exemplo de ArcGIS API for Python

A ferramenta Regressão Linear Generalizada está disponível no ArcGIS API for Python.

Este exemplo ajusta um modelo em um conjunto de dados e aplica a previsão a outro.


# Import the required ArcGIS API for Python modules
import arcgis
from arcgis.gis import GIS

# Connect to your ArcGIS Enterprise portal and confirm that GeoAnalytics is supported
portal = GIS("https://myportal.domain.com/portal", "gis_publisher", "my_password", verify_cert=False)
if not portal.geoanalytics.is_supported():
    print("Quitting, GeoAnalytics is not supported")
    exit(1)   

# Search for and list the big data file shares in your portal
search_result = portal.content.search("", "Big Data File Share")

# Look through the search results for a big data file share with the matching name
bdfs_search = next(x for x in search_result if x.title == "bigDataFileShares_SalesData")

# Look through the big data file share for 2018 sales data to model
model_layer = next(x for x in bdfs_search.layers if x.properties.name == "2018_sales")

# Find the dataset you want to predict
predict_layer_search = portal.content.search("Sales_2025", "Feature Layer")
predict_layer = predict_layer_search[0].layers[0]


# Run the Generalized Linear Regression tool
glr_result = arcgis.geoanalytics.analyze_patterns.glr(input_layer = model_layer, 
																																																						features_to_predict = predict_layer,
																																																						var_explanatory = "salestotal, store_count, advertisingcost",
																																																						var_dependent = "chicago_crimes_enriched",
																																																						regression_family = "Count",
																																																						exp_var_matching = [{"predictionLayerField":"store_count", 
																																																					 																			"trainingLayerField": "num_of_stores"}],
																																																						output_name = "predicted_customers")

# Visualize the results if you are running Python in a Jupyter Notebook
processed_map = portal.map()
processed_map.add_layer(glr_result)
processed_map

Ferramentas semelhantes

Utilize a ferramenta Regressão Linear Generalizada do ArcGIS GeoAnalytics Server para gerar previsões ou para modelar uma variável dependente em termos de sua relação com um conjunto de variáveis explanatórias. Outras ferramentas podem ser úteis para solucionar problemas semelhantes, mas ligeiramente diferentes.

Ferramentas de análise do Map Viewer

Crie modelos e previsões utilizando a ferramenta do ArcGIS GeoAnalytics Server Classificação e Regressão baseadas em Floresta .

Ferramenta de análise do ArcGIS Desktop

Para executar a ferramenta do ArcGIS Pro, o portal ativo deve ser Enterprise 10.7 ou posterior. Você deve registrar no portal utilizando uma conta que tenha privilégios para executar GeoAnalytics Análise de Feição.

Execute operações de regressão semelhantes no ArcGIS Pro com a ferramenta de geoprocessamento Regressão Linear Generalizada como parte da caixa de ferramentas Estatística Espacial.

Crie modelos e previsões utilizando uma adaptação do algoritmo de floresta aleatório de Leo Breiman no ArcGIS Pro com a ferramenta de geoprocessamento Classificação e Regressão baseadas em Floresta como parte da caixa de ferramentas Estatística Espacial.

Execute GWR no ArcGIS Pro com a ferramenta de geoprocessamento Regressão Geograficamente Ponderada como parte da caixa de ferramentas Estatística Espacial.