Skip To Content

Regresión lineal generalizada

Regresión lineal generalizadaRealiza una Regresión lineal generalizada (GLR) para generar predicciones o para modelar una variable dependiente en términos de su relación con un conjunto de variables explicativas. Esta herramienta se puede usar para ajustar modelos continuos (Gausiano), binarios (logísticos) y de recuento (Poisson).

Diagrama de flujo de trabajo

Diagrama del flujo de trabajo de Regresión lineal generalizada

Análisis mediante GeoAnalytics Tools

El análisis mediante GeoAnalytics Tools se ejecuta con el procesamiento distribuido en varios equipos y núcleos de ArcGIS GeoAnalytics Server. Las GeoAnalytics Tools y las herramientas de análisis de entidades estándar de ArcGIS Enterprise tienen parámetros y capacidades diferentes. Para obtener más información sobre las diferencias, consulte Diferencias de las herramientas de análisis de entidades.

Ejemplos

  • Como analista SIG de una empresa de servicios públicos, cuenta con un dataset de cortes del suministro eléctrico, así como con datos sobre condiciones meteorológicas extremas. Enriquezca los datos sobre los cortes del suministro eléctrico con las herramientas Crear cuadrícula multivariable y Enriquecer con cuadrícula multivariable para crear un dataset con información sobre condiciones meteorológicas extremas sobre los cortes del suministro eléctrico. Use Regresión lineal generalizada para determinar qué evento produjo los cortes del suministro eléctrico. Ahora que dispone de esta información, puede predecir dichos cortes y asignar recursos.
  • Como analista de una ciudad grande, tiene registros históricos de llamadas al 911, así como información demográfica. Debe responder a las siguientes preguntas: ¿Qué variables prevén de manera efectiva el volumen de llamadas al 911? Dadas las proyecciones futuras, ¿cuál es la demanda esperada para los recursos de respuesta de emergencia?

Notas de uso

Esta herramienta puede usarse en dos modos de operación. La opción Ajustar un modelo para evaluar el rendimiento del modelo se puede usar para evaluar el rendimiento de distintos modelos al explorar distintas variables explicativas y ajustes de la herramienta. Una vez encontrado un buen modelo, puede usar la opción Ajustar un modelo y predecir valores.

Use el parámetro Elegir una capa a partir de la cual generar un modelo con un campo que represente los fenómenos que está modelando (Elegir el campo que se va a modelar) y uno o varios campos que representen las variables explicativas. Estos campos deben ser numéricos y tener un rango de valores. Las entidades que contienen valores que faltan en las variables explicativa o dependiente se excluirán del análisis. Si desea modificar valores nulos, use la herramienta Calcular campo en primer lugar para crear una nueva capa con valores actualizados.

La herramienta Regresión lineal generalizada también produce entidades y diagnósticos de salida. Las capas de entidades de salida se agregan automáticamente al mapa con un esquema de representación en pantalla que se aplica a los residuales del modelo. A continuación, se proporciona una explicación completa de cada salida.

Es importante usar el modelo correcto (Continuo, Binario o Recuento) para su análisis con el fin de obtener resultados precisos de su análisis de regresión.

Los diagnósticos y resultados del resumen del modelo se escriben en la ventana de mensajes y los gráficos se crean bajo la clase de entidad de salida. Los diagnósticos devueltos dependen del Tipo de modelo. Las tres opciones para el tipo de modelo son las siguientes:

  • Use el tipo de modelo Continuo (Gausiano) si la variable dependiente puede obtener un amplio rango de valores, por ejemplo, temperatura o ventas totales. Lo ideal sería que su variable dependiente presentara una distribución normal.
  • Use un modelo Binario (logístico) si la variable dependiente puede obtener uno de dos valores posibles, por ejemplo, éxito y fracaso o presencia y ausencia. El campo que contiene su variable dependiente debe ser numérico y solo debe contener unos y ceros. Debe existir una variación de los unos y los ceros de sus datos.

  • Considere la posibilidad de utilizar un tipo de modelo Recuento (Poisson) si su variable dependiente es discreta y representa el número de ocurrencias de un evento, por ejemplo, un recuento de crímenes. Los modelos de recuento también se pueden utilizar si su variable dependiente representa una tasa y el denominador de esta es un valor fijo como, por ejemplo, las ventas mensuales o el número de gente con cáncer por cada 10.000 habitantes. Un modelo Recuento presupone que el valor medio y la varianza de la variable dependiente son iguales y que los valores de su variable dependiente no pueden ser negativos ni contener decimales.

Los parámetros variable dependiente y variable explicativa deben ser campos numéricos con un rango de valores. Esta herramienta no puede resolver cuando las variables tienen los mismos valores (por ejemplo, si todos los valores de un campo son 9,0).

Las entidades con uno o varios valores nulos o valores de cadena de caracteres vacíos en campos explicativos o de predicción se ejecutarán desde la salida. Si lo necesita, puede modificar los valores con Calcular campo.

Debe inspeccionar visualmente las sobrepredicciones y las subpredicciones que sean evidentes en los residuales de regresión para ver si proporcionan pistas acerca de las posibles variables que están ausentes en el modelo de regresión.

Puede utilizar el modelo de regresión que se ha creado para realizar predicciones para otras entidades. Crear dichas predicciones requiere que cada una de las entidades de predicción (Elegir una capa para la que predecir valores) tenga valores para cada una de las variables explicativas proporcionadas. Si los nombres de campo de los parámetros entidades de entrada y ubicaciones de predicción no coinciden, se proporciona un parámetro variable coincidente. Al comparar las variables explicativas, los campos de los parámetros entidades de entrada y ubicaciones de predicción deben ser del mismo tipo (los campos dobles deben corresponderse con los campos dobles, por ejemplo).

Salidas

La herramienta Regresión lineal generalizada produce una variedad de salidas. Dispone de unos resúmenes del modelo GLR y de las estadísticas en la página de elemento del portal como recurso para su capa. Para acceder a un resumen de sus resultados, haga clic en Mostrar resultados Mostrar resultados bajo la capa resultante en Map Viewer. La herramienta genera al menos una capa de salida y entidades predichas de salida opcionales. Las entidades de salida se agregan automáticamente a Map Viewer con un esquema de representación en pantalla de cálido a frío que se aplica a los residuales del modelo. Los diagnósticos generados dependen del tipo de modelo de las entidades de entrada y se describen a continuación.

Continuo (Gausiano)

Interpretar mensajes y diagnósticos

  • AIC: es una medida del rendimiento del modelo y se puede utilizar para comparar modelos de regresión. Teniendo en cuenta la complejidad del modelo, el modelo con el valor AIC más bajo proporciona un mejor ajuste de los datos observados. AIC no es una medida absoluta de la bondad de ajuste, pero es útil para comparar modelos con distintas variables explicativas, siempre y cuando se apliquen a la misma variable dependiente. Si los valores AIC para los dos modelos difieren por más de 3, el modelo con el valor AIC más bajo se considera más preciso.
  • AICc: AICc aplica una corrección sesgada a AIC para tamaños de muestra pequeños. AICc tomará AIC como la cantidad de entidades del aumento de entrada. Consulte AIC arriba.
  • R cuadrado múltiple: R cuadrado es una medida de la bondad de ajuste. Su valor varía de 0,0 a 1,0; se prefieren los valores más altos. Se puede interpretar como la proporción de varianza de la variable dependiente que da cuenta el modelo de regresión. El denominador para el cómputo de R cuadrado es la suma de los valores de la variable dependiente al cuadrado. Agregar una variable explicativa extra al modelo no altera el denominador pero sí altera el numerador; esto brinda la impresión de mejora en el ajuste del modelo que puede no ser real. Consulte R cuadrado ajustado a continuación.
  • R cuadrado ajustado: dado el problema descrito anteriormente para el valor R cuadrado, los cálculos para el valor R cuadrado ajustado normalizan el numerador y denominador mediante por sus grados de libertad. Tiene el efecto de compensar el número de variables en un modelo y, por consiguiente, el valor R cuadrado ajustado es casi siempre menor que el valor R cuadrado. Sin embargo, al realizar este ajuste, pierde la interpretación del valor como una proporción de la varianza explicada. En la Regresión ponderada geográficamente (GWR), el número efectivo de grados de libertad es una función de la vecindad utilizada, por lo tanto el ajuste puede estar bastante marcado en comparación con un modelo global como, por ejemplo, GLR. Por esta razón, se prefiere el AICc como medio de comparación de los modelos.

Binario (logístico)

Interpretar mensajes y diagnósticos

  • AIC: es una medida del rendimiento del modelo y se puede utilizar para comparar modelos de regresión. Teniendo en cuenta la complejidad del modelo, el modelo con el valor AIC más bajo proporciona un mejor ajuste de los datos observados. AIC no es una medida absoluta de la bondad de ajuste, pero es útil para comparar modelos con distintas variables explicativas, siempre y cuando se apliquen a la misma variable dependiente. Si los valores AIC para los dos modelos difieren por más de 3, el modelo con el valor AIC más bajo se considera más preciso.
  • AICc: AICc aplica una corrección sesgada a AIC para tamaños de muestra pequeños. AICc tomará AIC como la cantidad de entidades del aumento de entrada. Consulte AIC arriba.

Recuento (Poisson)

Interpretar mensajes y diagnósticos

  • AIC: es una medida del rendimiento del modelo y se puede utilizar para comparar modelos de regresión. Teniendo en cuenta la complejidad del modelo, el modelo con el valor AIC más bajo proporciona un mejor ajuste de los datos observados. AIC no es una medida absoluta de la bondad de ajuste, pero es útil para comparar modelos con distintas variables explicativas, siempre y cuando se apliquen a la misma variable dependiente. Si los valores AIC para los dos modelos difieren por más de 3, el modelo con el valor AIC más bajo se considera más preciso.
  • AICc: AICc aplica una corrección sesgada a AIC para tamaños de muestra pequeños. AICc tomará AIC como la cantidad de entidades del aumento de entrada. Consulte AIC arriba.

Limitaciones

La implementación en GeoAnalytics de Regresión lineal generalizada presenta las siguientes limitaciones:

  • Es un modelo de regresión global y no tiene en cuenta la distribución espacial de los datos.
  • El análisis no aplica la prueba I de Moran en los residuales.
  • Los datasets de entidades (puntos, líneas, polígonos y tablas) se admiten como entrada; los rásteres no se admiten.
  • No puede clasificar valores en varias clases.

Ejemplo de ArcGIS API for Python

La herramienta Regresión lineal generalizada está disponible a través de ArcGIS API for Python.

En este ejemplo se ajusta un modelo a un dataset y aplica la predicción a otro.


# Import the required ArcGIS API for Python modules import arcgis from arcgis.gis import GIS
# Connect to your ArcGIS Enterprise portal and check that GeoAnalytics is supported portal = GIS("https://myportal.domain.com/portal", "gis_publisher", "my_password", verify_cert=False) if not portal.geoanalytics.is_supported():
    print("Quitting, GeoAnalytics is not supported")    exit(1)   
# Find the big data file share dataset you're interested in using for analysis search_result = portal.content.search("", "Big Data File Share")
# Look through search results for a big data file share with the matching name bd_file = next(x for x in search_result if x.title == "bigDataFileShares_Sales_2018")
# Find the multivariable grid to enrich from predict_layer = portal.content.search("Sales_2025", "Feature Layer") predict_layer = layer_result[0].layers[0]
# Run the tool Generalized Linear Regression glr_result = arcgis.geoanalytics.analyze_patterns.glr(input_layer = bd_file, 	features_to_predict = "total_customers",
	var_explanatory = "salestotal, store_count, advertisingcost",	var_dependent = "chicago_crimes_enriched",	regression_family = "Count",	exp_var_matching = [{"predictionLayerField":"store_count", "trainingLayerField": "num_of_stores"}],	output_name = "predicted_customers")
# Visualize the results if you are running Python in a Jupyter Notebook processed_map = portal.map() processed_map.add_layer(glr_result) processed_map

Herramientas similares

Use la herramienta Regresión lineal generalizada de ArcGIS GeoAnalytics Server para generar predicciones o para modelar una variable dependiente en términos de su relación con un conjunto de variables explicativas. Existen otras herramientas que pueden resultar de utilidad para solucionar problemas similares, aunque ligeramente diferentes.

Herramientas de análisis del Map Viewer

Cree modelos y predicciones con la herramienta Clasificación y regresión basadas en bosque de ArcGIS GeoAnalytics Server.

Herramientas de análisis de ArcGIS Desktop

Para ejecutar esta herramienta desde ArcGIS Pro, su portal activo debe ser Enterprise 10.7 o posterior. Debe iniciar sesión utilizando una cuenta que tenga privilegios para realizar análisis de entidades de GeoAnalytics.

Realice operaciones de regresión similares en ArcGIS Pro con la herramienta de geoprocesamiento Regresión lineal generalizada como parte de la caja de herramientas Estadísticas espaciales.

Cree modelos y predicciones con una adaptación del algoritmo de bosque aleatorio de Leo Breiman en ArcGIS Pro con la herramienta de geoprocesamiento Clasificación y regresión basadas en bosque como parte de la caja de herramientas Estadísticas espaciales.

Realice una GWR en ArcGIS Pro con la herramienta de geoprocesamiento Regresión ponderada geográficamente como parte de la caja de herramientas Estadísticas espaciales.