Effectue une régression linéaire généralisée (GLR) en vue de générer des prévisions ou de modéliser une variable dépendante en fonction de sa relation avec un ensemble de variables explicatives. Cet outil permet d’adapter des modèles continus (gaussiens), binaires (logistiques) et totaux (Poisson).
Diagramme de workflow
Analyse avec les Outils GeoAnalytics
Vous pouvez exécuter des analyses avec Outils GeoAnalytics via un traitement distribué sur plusieurs cœurs et machines ArcGIS GeoAnalytics Server. Outils GeoAnalytics et les outils d’analyse d’entités standard de ArcGIS Enterprise proposent différents paramètres et fonctionnalités. Pour en savoir plus sur ces différences, reportez-vous à la rubrique Différences entre les outils d’analyse d’entités.
Exemples
- En tant qu'analyste du SIG au sein d’une entreprise de réseau de distribution, vous disposez d’un jeu de données relatif à des coupures de courant, ainsi que des données relatives aux conditions météorologiques extrêmes. Vous enrichissez vos données relatives aux pannes à l’aide des outils Build Multi-Variable Grid (Construire un carroyage à plusieurs variables) et Enrich from Multi-Variable Grid (Enrichir à l’aide d’un carroyage à plusieurs variables) pour créer un jeu de données avec des informations relatives aux conditions météorologiques extrêmes pour les pannes. Vous utilisez la régression linéaire généralisée afin de déterminer quel événement a entraîné les coupures de courant. Maintenant que vous avez ces informations, vous pouvez prévoir les pannes et allouer les ressources.
- En tant qu’analyste pour une grande ville, vous disposez de l’historique des appels aux services d’urgence ainsi que d’informations démographiques. Vous devez répondre aux questions suivantes : quelles variables prévoient efficacement le volume des appels au services d’urgence ? Sur la base des projections à venir, quelle est la demande attendue en termes de ressources pour les services d'urgence ?
Remarques sur l'utilisation
Cet outil peut être utilisé en deux modes opératoires. L'option Fit a model to assess model performance (Ajuster un modèle pour évaluer ses performances) peut être utilisée pour évaluer la performance des différents modèles lorsque vous explorez différentes variables explicatives et divers paramètres d’outil. Une fois le modèle approprié décelé, vous pouvez utiliser l'option Fit a model and predict values (Ajuster un modèle et prévoir des valeurs).
Utilisez le paramètre Choose a layer to generate a model from (Choisir une couche à partir de laquelle générer un modèle) avec un champ représentant les phénomènes que vous modélisez (Choose the field to model (Choisir le champ à modéliser)) et un ou plusieurs champs représentant les variables explicatives. Ces champs doivent être numériques et comporter une plage de valeurs. Les entités qui contiennent les valeurs manquantes dans la variable dépendante ou explicative seront exclues de l’analyse. Si vous souhaitez modifier les valeurs nulles, utilisez l’outil Calculate Field (Calculer un champ) tout d'abord pour créer une couche avec des valeurs mises à jour.
L’outil Régression linéaire généralisée produit également des entités en sortie et des diagnostics. Les couches d’entités en sortie sont automatiquement ajoutées à la carte avec un schéma de rendu appliqué aux valeurs résiduelles du modèle. Une explication complète de chaque sortie est fournie ci-dessous.
Il est important d’utiliser le bon modèle (Continuous (Continu), Binary (Binaire) ou Count (Total)) pour votre analyse afin d’obtenir des résultats précis de votre analyse de régression.
Les résultats de synthèse du modèle et les diagnostics sont rédigés dans la fenêtre des messages et des diagrammes sont créés sous la classe d’entités en sortie. Les diagnostics signalés dépendent du Model Type (Type de modèle). Les trois options pour le type de modèle sont les suivantes :
- Utilisez le Model Type (Type de modèle) Continuous (Gaussian) [Continu (gaussien)] si votre variable dépendante peut adopter une plage de valeurs étendue comme la température ou un volume total de ventes. Il est recommandé que votre variable dépendante soit répartie normalement.
Utilisez le type de modèle (logistique) Binary (Binaire) si votre variable dépendante peut prendre l’une des deux valeurs possibles telles que réussite ou échec ou présence et absence. Le champ contenant votre variable dépendante doit être un champ numérique et ne contenir que des uns et zéros. Vos données doivent présenter une variation des valeurs un et zéro.
Envisagez d’utiliser le type de modèle (Poisson) Count (Total) si votre variable dépendante est discrète et représente le nombre d'occurrences d’un événement, tel que le nombre de délits . Les modèles de type Total peuvent également être utilisés si votre variable dépendante représente un taux et que le dénominateur du taux est une valeur fixe telle que les ventes par mois ou le nombre de personnes atteintes de cancer parmi un échantillon de 10 000 personnes. Un modèle Count (Total) suppose que la moyenne et la variance de la variable dépendante sont identiques, et que les valeurs de votre variable dépendante ne peuvent pas être négatives, ni contenir de décimale.
Les paramètres de variable explicative et de variable dépendante doivent être des champs numériques contenant une plage de valeurs. Cet outil ne peut pas être résolue si les variables ont toutes la même valeur (lorsque toutes les valeurs d'un champ sont définies sur 9,0 par exemple).
Les entités avec une ou plusieurs entités de valeurs nulles ou des chaînes vides en prévision ou encore des champs explicatifs seront exclues de la sortie. Si nécessaire, vous pouvez modifier les valeurs à l’aide de l’outil Calculer un champ.
Etudiez les surestimations et sous-estimations évidentes dans les valeurs résiduelles de régression afin de trouver des indices permettant de déterminer s'il manque des variables dans votre modèle de régression.
Vous pouvez utiliser le modèle de régression qui a été créé pour faire des prévisions pour les autres entités. Le fait de créer ces prévisions exige que chaque entité de prévision (Choose a layer to predict values for (Choisir une couche pour laquelle prévoir des valeurs)) ait des valeurs pour chaque variable explicative fournie. Si les noms des champs des paramètres Entités en entrée et Emplacements des prévisions ne concordent pas, un paramètre d’appariement des variables est fourni. En appariant les variables explicatives, les champs des paramètres Entités en entrée et Emplacements des prévisions doivent être du même type (les champs doubles doivent être appariés à des champs doubles, par exemple).
Sorties
L’outil Régression linéaire généralisée produit diverses sorties. Une synthèse du modèle Régression linéaire généralisée et les synthèses statistiques sont disponibles sur la page des éléments du portail et en tant que ressource sur votre couche. Pour accéder à la synthèse de vos résultats, cliquez sur Show Results (Afficher les résultats) sous votre couche obtenue dans Map Viewer. L’outil génère au moins deux entités prévues : une couche en sortie et une sortie facultative. Les entités en sortie sont automatiquement ajoutées à Map Viewer avec un schéma de rendu chaud/froid appliqué aux valeurs résiduelles du modèle. Les diagnostics générés dépendent du type de modèle des entités en entrée et sont présentés ci-dessous.
Continu (gaussien)
Interpréter des messages et diagnostics
- AIC mesure des performances du modèle, utile pour comparer des modèles de régression. En considérant la complexité du modèle, un modèle de valeur AIC fournit un meilleur ajustement aux données observées. La valeur AIC n'est pas une mesure absolue de la qualité d'ajustement, mais elle est utile pour la comparaison de modèles avec des variables explicatives différentes, tant qu'ils s'appliquent à la même variable dépendante. Si les valeurs AIC de deux modèles diffèrent de plus de 3, le modèle avec la valeur AIC inférieure est considéré meilleur.
- AICc : applique une correction de biais à la valeur AIC pour les échantillons de petites tailles. La valeur AICc avoisine la valeur AIC lorsque le nombre d’entités en entrée augmente. Voir la valeur AIC ci-dessus.
- R-Carré multiple : R-Carré est une mesure de qualité d'ajustement. Sa valeur varie de 0,0 à 1,0, les valeurs supérieures étant préférables. Elle peut être interprétée en tant que proportion de variance de la variable dépendante correspondant au modèle de régression. Le dénominateur pour le calcul de R-Carré est la somme des valeurs de variables dépendantes au carré. L'ajout d'une variable explicative supplémentaire au modèle ne modifie pas le dénominateur mais le numérateur ; ce qui donne une impression d'amélioration dans l'ajustement du modèle qui peut ne pas être réelle. Voir la valeur R-Carré ajustée ci-dessous.
- R-Carré ajustée : en raison du problème décrit ci-dessus pour la valeur R-Carré, les calculs pour la valeur R-Carré ajustée normalisent le numérateur et le dénominateur par leurs degrés de liberté. Cela a pour effet de compenser le nombre de variables d'un modèle ; par conséquent, la valeur R-Carré ajustée est presque toujours inférieure à la valeur R-Carré. Toutefois, pour effectuer cet ajustement, vous perdez l'interprétation de la valeur en tant que proportion de la variance expliquée. Dans la régression pondérée géographiquement, le nombre effectif de degrés de liberté est une fonction du voisinage utilisé, l'ajustement peut donc être très marqué par rapport à un modèle global comme la régression linéaire généralisée. Pour cette raison, il est préférable d’utiliser la valeur AICc pour comparer des modèles.
Binaire (logistique)
Interpréter des messages et diagnostics
- AIC mesure des performances du modèle, utile pour comparer des modèles de régression. En considérant la complexité du modèle, un modèle de valeur AIC fournit un meilleur ajustement aux données observées. La valeur AIC n'est pas une mesure absolue de la qualité d'ajustement, mais elle est utile pour la comparaison de modèles avec des variables explicatives différentes, tant qu'ils s'appliquent à la même variable dépendante. Si les valeurs AIC de deux modèles diffèrent de plus de 3, le modèle avec la valeur AIC inférieure est considéré meilleur.
- AICc : applique une correction de biais à la valeur AIC pour les échantillons de petites tailles. La valeur AICc avoisine la valeur AIC lorsque le nombre d’entités en entrée augmente. Voir la valeur AIC ci-dessus.
Total (Poisson)
Interpréter des messages et diagnostics
- AIC mesure des performances du modèle, utile pour comparer des modèles de régression. En considérant la complexité du modèle, un modèle de valeur AIC fournit un meilleur ajustement aux données observées. La valeur AIC n'est pas une mesure absolue de la qualité d'ajustement mais elle est utile pour la comparaison de modèles avec des variables explicatives différentes, tant qu'ils s'appliquent à la même variable dépendante. Si les valeurs AIC de deux modèles diffèrent de plus de 3, le modèle avec la valeur AIC inférieure est considéré meilleur.
- AICc : applique une correction de biais à la valeur AIC pour les échantillons de petites tailles. La valeur AICc avoisine la valeur AIC lorsque le nombre d’entités en entrée augmente. Voir la valeur AIC ci-dessus.
Limitations
La mise en place GeoAnalytics de la régression linéaire généralisée a les limites suivantes :
- Il s’agit d'un modèle de régression global qui ne tient pas compte de la distribution spatiale des données.
- L'analyse ne s'applique pas au test de l’outil d'auto-corrélation spatiale (Moran I) sur les résidus.
- Les jeux de données des entités (points, lignes, polygones et tables) sont pris en charge comme entrée. Les rasters ne sont pas pris en charge.
- Vous ne pouvez pas classer les valeurs en plusieurs classes.
Exemple de ArcGIS API for Python
L’outil Régression linéaire généralisée est disponible dans ArcGIS API for Python.
Cet exemple adapte un modèle à un jeu de données et applique la prévision à un autre.
# Import the required ArcGIS API for Python modules import arcgis from arcgis.gis import GIS
# Connect to your ArcGIS Enterprise portal and check that GeoAnalytics is supported portal = GIS("https://myportal.domain.com/portal", "gis_publisher", "my_password", verify_cert=False) if not portal.geoanalytics.is_supported():
print("Quitting, GeoAnalytics is not supported") exit(1)
# Find the big data file share dataset you're interested in using for analysis search_result = portal.content.search("", "Big Data File Share")
# Look through search results for a big data file share with the matching name bd_file = next(x for x in search_result if x.title == "bigDataFileShares_Sales_2018")
# Find the multivariable grid to enrich from predict_layer = portal.content.search("Sales_2025", "Feature Layer") predict_layer = layer_result[0].layers[0]
# Run the tool Generalized Linear Regression glr_result = arcgis.geoanalytics.analyze_patterns.glr(input_layer = bd_file, features_to_predict = "total_customers",
var_explanatory = "salestotal, store_count, advertisingcost", var_dependent = "chicago_crimes_enriched", regression_family = "Count", exp_var_matching = [{"predictionLayerField":"store_count", "trainingLayerField": "num_of_stores"}], output_name = "predicted_customers")
# Visualize the results if you are running Python in a Jupyter Notebook processed_map = portal.map() processed_map.add_layer(glr_result) processed_map
Outils semblables
Utilisez l’outil Régression linéaire généralisée ArcGIS GeoAnalytics Server pour générer des prévisions ou modéliser une variable dépendante en fonction de sa relation avec un ensemble de variables explicatives. D'autres outils peuvent vous aider à résoudre des problèmes légèrement différents.
Outils d'analyse Map Viewer
Créez des modèles et prévisions à l’aide de l’outil ArcGIS GeoAnalytics Server Régression linéaire généralisée.
Outils d'analyse d'ArcGIS Desktop
Pour exécuter l’outil à partir de ArcGIS Pro, votre portail actif doit être Enterprise version 10.7 ou ultérieure. Vous devez vous connecter via un compte détenteur des privilèges permettant d’effectuer une analyse d’entités GeoAnalytics.
Exécutez les opérations de régression similaires dans ArcGIS Pro avec l’outil de géotraitement Régression linéaire généralisée dans le cadre de la boîte à outils Statistiques spatiales.
Créez des modèles et prévisions à l'aide d'une adaptation de l’algorithme des forêts aléatoires introduit par Leo Breiman dans ArcGIS Pro avec l’outil de géotraitement Classification et régression basées sur une forêt dans le cadre de la boîte à outils Statistiques spatiales.
Exécutez la régression pondérée géographiquement dans ArcGIS Pro avec l’outil de géotraitement Régression pondérée géographiquement dans le cadre de la boîte à outils Statistiques spatiales.
Vous avez un commentaire à formuler concernant cette rubrique ?