Skip To Content

Régression pondérée géographiquement

Régression pondérée géographiquementCalcule la régression pondérée géographiquement (GWR), formule locale de régression linéaire utilisée pour modéliser des relations variant spatialement.

Diagramme de workflow

Diagramme de workflow Régression pondérée géographiquement

Analyse avec les Outils GeoAnalytics

Vous pouvez exécuter des analyses avec Outils GeoAnalytics via un traitement distribué sur plusieurs cœurs et machines ArcGIS GeoAnalytics Server. Outils GeoAnalytics et les outils d’analyse d’entités standard de ArcGIS Enterprise proposent différents paramètres et fonctionnalités. Pour en savoir plus sur ces différences, reportez-vous à la rubrique Différences entre les outils d’analyse d’entités.

Exemples

  • La relation entre niveau de diplôme et revenu est-elle cohérente à travers la zone d’étude ?
  • Quelles sont les variables clés qui expliquent la fréquence élevée d'incendies de forêt ?
  • Dans quels arrondissements/quartiers les enfants obtiennent-ils des résultats élevés aux examens ? Quelles caractéristiques semblent être associées ? Où chacune des caractéristiques est-elle la plus importante ?

Remarques sur l'utilisation

Cet outil calcule la régression pondérée géographiquement, formule locale de régression utilisée pour modéliser des relations variant spatialement. Cet outil offre un modèle local de la variable ou du processus que vous tentez de comprendre ou de prévoir en ajustant une équation de régression à chaque entité du jeu de données. L’outil Régression pondérée géographiquement crée ces équations distinctes en insérant les variables dépendantes et explicatives des entités contenues dans le voisinage de chaque entité cible. La forme et l’étendue de chaque quartier analysé sont basées sur les entrées du paramètre Choose how the neighborhood will be determined (Choisir la manière dont le voisinage est déterminé).

L’outil Régression pondérée géographiquement (GWR) produit également des entités en sortie et des diagnostics. Les couches d’entités en sortie sont automatiquement ajoutées à la carte avec un schéma de rendu appliqué aux valeurs résiduelles du modèle. Une explication complète de chaque sortie est fournie ci-dessous.

Une pratique courante consiste à explorer vos données globalement à l’aide de l’outil Régression linéaire généralisée avant d’explorer vos données localement à l’aide de l’outil GWR.

Les paramètres Choose the field to model (Choisir le champ à modéliser) et Choose the explanatory fields (Choisir les champs explicatifs) doivent être des champs numériques contenant une variété de valeurs. Ces valeurs doivent présenter une variation, à la fois globalement et localement. Pour cette raison, n’utilisez pas de variables explicatives « factices »pour représenter des régimes spatiaux différents dans un modèle GWR (par exemple en affectant une valeur de 1 aux secteurs de recensement à l’extérieur du cœur urbain et une valeur de 0 à tous les autres). Étant donné que l’outil Régression pondérée géographiquement permet aux coefficients variables explicatifs de varier, ces variables explicatives de régime spatial sont inutiles, et si elles sont incluses, elles sont susceptibles de créer des problèmes de multicolinéarité locale.

Dans les modèles de régression globaux, tels que la régression linéaire généralisée, les résultats sont peu fiables lorsque deux variables ou plus présentent un phénomène de multicolinéarité (lorsque deux variables ou plus sont redondantes ou racontent la même histoire). L’outil Régression pondérée géographiquement génère une équation de régression locale pour chaque entité dans le jeu de données. Lorsque les valeurs d’une variable explicative particulière s’agrègent spatialement, vous risquez de rencontrer des problèmes de multicolinéarité locale. Le champ de conditionnement (COND_ADG) dans la classe d’entités en sortie indique quand les résultats sont instables en raison d’un problème de multicolinéarité local. En règle générale, ne vous fiez pas au résultat des entités présentant un conditionnement supérieur à 30 ; nul ; ou, pour les shapefiles, égal à -1.7976931348623158e+308.

Soyez prudent lorsque vous incluez des données nominales ou catégorielles dans un modèle de régression pondérée géographiquement. Quand les catégories s'agrègent spatialement, vous risquez fort de rencontrer des problèmes de multicolinéarité locale. Le conditionnement compris dans la sortie GWR indique quand la colinéarité locale présente un problème (conditionnement inférieur à zéro, supérieur à 30, ou défini sur nul). En présence de multicolinéarité locale, les résultats sont instables.

Un modèle de régression est incorrectement spécifié s’il manque une variable explicative clé. Une autocorrélation spatiale statistiquement signifiante des résiduels de régression ou une variation spatiale inattendue parmi les coefficients d’une ou de plusieurs variables explicatives indique que votre modèle est incorrectement spécifié. Vous devez découvrir (via l’analyse des résiduels du modèle de régression linéaire généralisée et l’analyse de la variation des coefficients du modèle de régression pondérée géographiquement, par exemple) quelles sont ces variables manquantes clés pour les inclure dans le modèle.

Examinez toujours la pertinence de la nature non stationnaire d’une variable explicative. Par exemple, supposons que vous modélisiez la densité d'une espèce de plante particulière en tant que fonction de plusieurs variables, notamment ASPECT (exposition). Si le coefficient varie pour la variable ASPECT dans la zone d'étude, c'est vraisemblablement qu'il manque une variable explicative clé (la prédominance de la végétation concurrente, par exemple). Assurez-vous d'inclure toutes les variables explicatives clés dans votre modèle de régression.

Les problèmes graves de conception de modèle ou les erreurs indiquant que les équations that locales ne comprennent pas assez de voisins, signalent souvent un problème de multicolinéarité globale ou locale. Pour déterminer l’origine du problème, exécutez un modèle global à l’aide de la régression linéaire généralisée et examinez la valeur VIF pour chaque variable explicative. Si certaines valeurs VIF sont élevées (supérieures à 7,5, par exemple), la multicolinéarité globale empêche la résolution de la régression pondérée géographiquement. Toutefois, la multicolinéarité locale est plus vraisemblablement à l'origine du problème. Essayez de créer une carte thématique pour chaque variable explicative. Si la carte révèle une agrégation spatiale de valeurs identiques, envisagez la suppression de ces variables du modèle ou la combinaison de ces variables avec d'autres variables explicatives afin d'augmenter la variation des valeurs. Par exemple, si vous modélisez des valeurs d’habitat et que vous disposez de variables pour les chambres et les salles de bains, vous pouvez les combiner pour augmenter la variation des valeurs ou les représenter en tant que superficie salle de bain/chambre. Évitez d’utiliser des variables de régime spatiale fictives, des variables catégorielles ou nominales spatialement agrégées ou des variables avec très peu de valeurs possibles lorsque vous créez des modèles GWR.

La régression pondérée géographiquement (Geographically Weighted Regression, GWR) est un modèle linéaire soumis aux mêmes exigences que la régression linéaire généralisée. Examinez attentivement les diagnostics expliqués dans la rubrique Fonctionnement de l’outil Régression pondérée géographiquement pour vérifier que votre modèle GWR est correctement spécifié. La section intitulée Corruption des modèles de régression dans la rubrique Principes de base de l’analyse de régression contient également des informations qui vous permettent de vous assurer que votre modèle est exact.

Les paramètres de variable explicative et de variable dépendante doivent être des champs numériques contenant une plage de valeurs. Cet outil ne peut pas être résolue si les variables ont toutes la même valeur (lorsque toutes les valeurs d'un champ sont définies sur 9,0 par exemple).

Les entités avec une ou plusieurs entités de valeurs nulles ou des chaînes vides en prévision ou encore des champs explicatifs seront exclues de la sortie. Si nécessaire, vous pouvez modifier les valeurs à l’aide de l’outil Calculer un champ.

Etudiez les surestimations et sous-estimations évidentes dans les valeurs résiduelles de régression afin de trouver des indices permettant de déterminer s'il manque des variables dans votre modèle de régression.

Lorsque les valeurs d’interception, les coefficients estimés, les valeurs prédites, les valeurs résiduelles et les conditionnements sont nuls, le modèle présente potentiellement un mauvais ajustement. Cette situation peut survenir pour une ou plusieurs entités du modèle et s’expliquer par les raisons suivantes :

  • Voisins insuffisants. Les entités ayant moins de deux voisins n’auront pas de modèle adapté.
  • Multicollinéarité du modèle.

Dans les cas ci-dessus, le modèle doit être évalué en examinant les diagnostics en sortie et éventuellement réajusté avec différents paramètres et coefficients.

Sorties

L’outil Régression pondérée géographiquement produit diverses sorties. Une synthèse du modèle GWR et les synthèses statistiques sont disponibles sur la page des éléments du portail et en tant que ressource sur votre couche. Pour accéder à la synthèse de vos résultats, cliquez sur Show Results (Afficher les résultats) Show Results (Afficher les résultats) sous votre couche obtenue dans Map Viewer. L’outil génère une couche de sortie. Les entités en sortie sont automatiquement ajoutées à Map Viewer avec un schéma de rendu chaud/froid appliqué aux valeurs résiduelles du modèle. Les diagnostics générés dépendent du type de modèle des entités en entrée et sont présentés ci-dessous.

Continu (gaussien)

Interpréter des messages et diagnostics

  • AICc : applique une correction de biais à la valeur AIC pour les échantillons de petites tailles. La valeur AICc avoisine la valeur AIC lorsque le nombre d’entités en entrée augmente.
  • R-Carré : R-Carré est une mesure de qualité d’ajustement. Sa valeur varie de 0,0 à 1,0, les valeurs supérieures étant préférables. Elle peut être interprétée en tant que proportion de variance de la variable dépendante correspondant au modèle de régression. Le dénominateur pour le calcul de R-Carré est la somme des valeurs de variables dépendantes au carré. L'ajout d'une variable explicative supplémentaire au modèle ne modifie pas le dénominateur mais le numérateur ; ce qui donne une impression d'amélioration dans l'ajustement du modèle qui peut ne pas être réelle. Voir la valeur R-Carré ajustée ci-dessous.

Limitations

L’implémentation par GeoAnalytics de la régression pondérée géographiquement présente les limites suivantes :

  • Vous ne pouvez pas effectuer une prédiction sur une autre couche ou créer des couches de coefficient raster.
  • Vous ne pouvez pas modéliser une variable binaire (logistique) ou une variable de total (valeur Poisson).
  • Vous ne pouvez pas définir la recherche de voisinage en utilisant la recherche absolue ou les intervalles manuels.

Exemple de ArcGIS API for Python

L’outil Régression pondérée géographiquement est disponible dans ArcGIS API for Python.

Cet exemple trouve des relations pour les ventes des points de vente de tout le pays.


# Import the required ArcGIS API for Python modules import arcgis from arcgis.gis import GIS
# Connect to your ArcGIS Enterprise portal and check that GeoAnalytics is supported portal = GIS("https://myportal.domain.com/portal", "gis_publisher", "my_password", verify_cert=False) if not portal.geoanalytics.is_supported():
    print("Quitting, GeoAnalytics is not supported")    exit(1)   
# Search for and list the big data file shares in your portal search_result = portal.content.search("", "Big Data File Share")
# Look through search results for the big data file share of interest bd_layer = next(x for x in search_result if x.title == "bigDataFileShares_Sales_2018")
# Run the tool GWR gwr_result = arcgis.geoanalytics.analyze_patterns.gwr(input_layer = bd_layer,     explanatory_variables = "population, customers",
    dependent_variable = "total_sales"
    model_type = "Continuous",    neighborhood_type = "NumberOfNeighbors",    neighborhood_selection_method = "UserDefined",    number_of_neighbors = "100",    local_weighting_scheme = "BiSquare",    output_trained_name = "GWR_results")
# If you are running Python in a Jupyter Notebook, visualize the results processed_map = portal.map() processed_map.add_layer(gwr_result) processed_map

Outils semblables

Utilisez l’outil de régression pondérée géographiquement de ArcGIS GeoAnalytics Server pour modéliser des relations variant spatialement. D'autres outils peuvent vous aider à résoudre des problèmes légèrement différents.

Outils d'analyse Map Viewer

Créez des modèles et prévisions linéaires généralisées à l’aide de l’outil ArcGIS GeoAnalytics Server Régression linéaire généralisée.

Créez des modèles et prévisions à l’aide de l’outil ArcGIS GeoAnalytics Server Régression linéaire généralisée.

Outils d'analyse d'ArcGIS Desktop

Pour exécuter l’outil à partir de ArcGIS Pro, votre portail actif doit être Enterprise version 10.8 ou ultérieure. Vous devez vous connecter via un compte détenteur des privilèges permettant d’effectuer une analyse d’entités GeoAnalytics.

Exécutez les opérations de régression similaires dans ArcGIS Pro avec l’outil de géotraitement Régression pondérée géographiquement dans le cadre de la boîte à outils Statistiques spatiales.

Créez des modèles et prévisions à l'aide d'une adaptation de l’algorithme des forêts aléatoires introduit par Leo Breiman dans ArcGIS Pro avec l’outil de géotraitement Classification et régression basées sur une forêt dans le cadre de la boîte à outils Statistiques spatiales.