Skip To Content

지리 가중 회귀분석(Geographically Weighted Regression)

비고:

현재 이 기능은 Map Viewer Classic(이전의 Map Viewer)에서만 지원됩니다. Map Viewer 후속 릴리즈에서 제공됩니다.

지리 가중 회귀분석은 공간적으로 다양한 관계를 모델링하는 데 사용되는 선형 회귀의 로컬 양식인 지리 가중 회귀분석(GWR)을 수행합니다.

워크플로 다이어그램

지리 가중 회귀분석 워크플로 다이어그램

GeoAnalytics Tools를 사용하여 분석

GeoAnalytics Tools를 사용하는 분석은 여러 ArcGIS GeoAnalytics Server 머신 및 코어에서 분산 처리를 사용하여 실행됩니다. ArcGIS EnterpriseGeoAnalytics Tools 및 표준 피처 분석 도구에는 다양한 매개변수와 기능이 있습니다. 이러한 차이점에 대한 자세한 내용은 피처 분석 도구의 차이점을 참고하세요.

예시

다음은 도구의 사용 예시입니다.

  • 교육 성과와 소득의 관계가 연구 영역에 걸쳐 일관되나요?
  • 높은 산불 빈도를 설명하는 주요 변수는 무엇인가요?
  • 아이들의 시험 성적이 높은 구역은 어디인가요? 관련 있는 특성은 무엇인가요? 각 특성이 가장 중요한 곳은 어디인가요?

사용 참고 사항

이 도구는 공간적으로 다양한 관계를 모델링하는 데 사용되는 회귀의 로컬 양식인 지리 가중 회귀분석을 수행합니다. GWR 도구는 데이터셋의 모든 피처에 회귀 방정식을 적합화하여 이해하거나 예측하려는 변수 또는 프로세스의 로컬 모델을 제공합니다. 지리 가중 회귀분석(GWR) 도구는 각 대상 피처의 근린에 피처의 종속 변수 및 설명 변수를 통합하여 이러한 개별 방정식을 구성합니다. 분석된 각 근린의 쉐이프와 범위는 근린 결정 방법 선택 매개변수에 대한 입력을 기반으로 합니다.

또한 지리 가중 회귀분석(GWR) 도구는 결과 피처와 진단을 생성합니다. 결과 피처 레이어는 모델 잔차에 적용된 렌더링 스키마를 사용하여 맵에 자동으로 추가됩니다. 각 결과에 대한 자세한 설명이 아래에 나와 있습니다.

GWR 도구를 사용하여 로컬로 데이터를 탐색하기 전에 일반화된 선형 회귀 도구를 사용하여 데이터를 전체적으로 탐색하는 것이 좋습니다.

모델링할 필드 선택설명 필드 선택 매개변수는 다양한 값을 포함하는 숫자 필드여야 합니다. 이러한 값에는 전역 및 로컬 모두 편차가 있어야 합니다. 따라서 GWR 모델에서 "더미" 설명 변수를 사용하여 서로 다른 공간 시스템을 나타내지 마세요(예시: 도시 중심 외부의 인구 조사 표준 지역에 1 값을 배정하는 반면 다른 모든 곳에는 0 값이 배정됨). GWR 도구를 사용하면 설명 변수 계수가 달라질 수 있기 때문에 이러한 공간 시스템 설명 변수는 불필요하며, 포함된 경우 로컬 다중 공선성에 문제가 발생합니다.

일반화된 선형 회귀과 같은 글로벌 회귀 모델에서 둘 이상의 변수가 다중 공선성을 보일 때(두 개 이상의 변수가 중복되거나 함께 동일한 스토리를 전달하는 경우) 결과를 신뢰할 수 없습니다. GWR 도구는 데이터셋의 각 피처에 대한 로컬 회귀 방정식을 생성합니다. 특정 설명 변수에 대한 값이 공간적으로 군집을 이룰 경우 로컬 다중 공선성에 문제가 있을 수 있습니다. 결과 피처 클래스의 조건 번호 필드(COND_ADG)는 로컬 다중 공선성으로 인해 결과가 불안정할 때를 나타냅니다. 일반적으로 조건 번호가 30보다 크거나, Null과 같은 피처 또는 -1.7976931348623158e+308과 같은 쉐이프 파일의 경우 결과에 회의적입니다.

GWR 모델에 명목형 데이터 또는 범주형 데이터를 포함할 때는 주의해야 합니다. 범주가 공간적으로 군집을 이룰 경우 로컬 다중 공선성 문제가 발생할 위험이 높습니다. GWR 결과에 포함된 조건 번호는 로컬 공선성이 문제인 경우(조건 번호가 0보다 작거나, 30보다 크거나, Null로 설정된 경우)를 나타냅니다. 로컬 다중 공선성의 존재 결과가 불안정합니다.

회귀 모델에 주요 설명 변수가 없는 경우 회귀 모델이 잘못 지정된 것입니다. 회귀 잔차의 통계적으로 유의한 공간적 자기상관관계 또는 하나 이상의 설명 변수 계수 사이의 예기치 않은 공간 변동은 모델이 잘못 지정되었음을 나타냅니다. 이렇게 사라진 주요 변수를 찾아내서 모델에 포함될 수 있도록 모든 노력(예시: GLR 잔차 분석 및 GWR 계수 변동 분석)을 기울여야 합니다.

설명 변수가 비정상인 경우 이 상태가 적절한지 항상 질문합니다. 예를 들어, 특정 식물 종의 밀도를 ASPECT를 포함한 여러 변수의 함수로 모델링하고 있다고 가정합니다. ASPECT 변수에 대한 계수가 연구 영역에 걸쳐 변경되는 경우 주요 설명 변수가 누락된 증거가 발견될 가능성이 높습니다(예시: 경쟁 식물의 확산 등). 회귀 모델에 모든 주요 설명 변수를 포함하도록 모든 노력을 기울여야 합니다.

심각한 모델 디자인 문제 또는 로컬 방정식에 충분한 인접 항목이 포함되어 있지 않음을 나타내는 오류는 종종 전역 또는 로컬 다중 공선성에 문제가 있음을 나타냅니다. 문제가 있는 위치를 확인하려면 일반화된 선형 회귀를 사용하여 글로벌 모델을 실행하고 각 설명 변수에 대한 VIF 값을 검사합니다. VIF 값 중 일부가 큰 경우(예시: 7.5 이상) 글로벌 다중 공선성으로 인해 GWR이 해결되지 않습니다. 그러나 로컬 다중 공선성이 문제일 가능성이 높습니다. 각 설명 변수에 대한 주제 맵을 생성해봅니다. 맵에 동일한 값의 공간 군집화가 표시되면 해당 변수를 모델에서 제거하거나 다른 설명 변수와 결합하여 값 변동을 증가시키는 것이 좋습니다. 예를 들어, 집 값을 모델링하고 침실 및 욕실에 대한 변수가 있는 경우 이를 결합하여 값 변동을 증가시키거나 욕실/침실 제곱피트로 나타낼 수 있습니다. GWR 모델을 구성할 때는 공간 시스템 더미 변수를 사용하거나, 범주형 또는 명목형 변수를 공간적으로 군집화하거나, 가능한 값이 매우 적은 변수를 사용하지 않도록 합니다.

지리 가중 회귀분석(GWR)일반화된 선형 회귀와 동일한 요구 사항을 따르는 선형 모델입니다. 지리 가중 회귀분석의 작동 방식에 설명된 진단을 신중하게 검토하여 GWR 모델이 올바르게 지정되었는지 확인합니다. 회귀 분석 기본 사항회귀 모델이 잘못된 경우 섹션에는 모델이 정확한지 확인하는 정보도 포함되어 있습니다.

종속 변수 및 설명 변수 매개변수는 다양한 값을 포함하는 숫자 필드여야 합니다. 예를 들어 필드의 값이 모두 9.0인 경우와 같이 변수의 값이 모두 동일하면 해당 도구가 실패합니다.

예측 또는 설명 필드에 하나 이상의 Null 값 또는 빈 문자열 값이 있는 피처는 결과에서 제외됩니다. 필요한 경우 필드 계산을 사용하여 값을 수정할 수 있습니다.

회귀 잔차에 뚜렷이 나타나는 과대예측과 과소예측을 시각적으로 확인하여 이러한 예측이 회귀 모델에서 잠재적 누락 변수에 대한 단서를 제공하는지 파악해야 합니다.

절편, 추정된 계수 값, 예측값, 잔차 및 조건 번호가 null이면 모델이 적합하지 않을 수 있습니다. 이는 하나 이상의 모델 피처에 존재할 수 있으며 다음과 같은 이유로 인해 발생할 수 있습니다.

  • 인접 항목이 부족합니다. 인접 항목이 두 개 미만인 피처는 모델 적합도를 가질 수 없습니다.
  • 모델의 다중 공선성.

위의 경우 결과 진단을 검토하여 모델을 평가하고 다른 매개변수와 계수를 사용하여 잠재적으로 다시 적합화해야 합니다.

결과

지리 가중 회귀분석 도구는 다양한 결과를 생성합니다. GWR 모델 요약과 통계 요약은 레이어의 리소스로 포털 항목 페이지에 제공됩니다. 결과 요약에 접근하려면 Map Viewer Classic에서 결과 레이어 아래의 결과 보기 결과 보기를 클릭합니다. 이 도구는 하나의 결과 레이어를 생성합니다. 결과 피처는 모델 잔차에 적용된 핫/콜드 렌더링 스키마를 사용하여 Map Viewer Classic에 자동으로 추가됩니다. 생성되는 진단은 입력 피처의 모델 유형에 따라 다르며 진단에 대한 설명이 아래에 나와 있습니다.

연속(가우시안)

메시지 및 진단 해석

  • AICc - AICc는 작은 표본 크기에 대한 AIC에 편향 보정을 적용합니다. AICc는 입력의 피처 수가 늘어날수록 AIC에 근접합니다.
  • 결정계수(R-Squared) - R 제곱은 적합도 척도입니다. 해당 값은 0.0~1.0까지 다양하며 값이 높을수록 좋습니다. 이 값은 회귀 모델에서 차지하는 종속 변수 분산의 비율로 해석할 수 있습니다. 결정계수(R-Squared) 계산의 분모는 제곱 종속 변수 값의 합입니다. 모델에 설명 변수를 더 추가하면 분모가 변경되지 않지만 분자는 변경됩니다. 이 경우 실제가 아닐 수도 있는 모델 조정 개선이라는 느낌을 줍니다. 아래의 조정된 결정계수(Adjusted R-Squared)를 참고하세요.

제한 사항

지리 가중 회귀분석의 GeoAnalytics 구현에는 다음과 같은 제한 사항이 있습니다.

  • 다른 레이어로 예측하거나 래스터 계수 레이어를 생성할 수 없습니다.
  • 이진(로지스틱) 변수 또는 개수(푸아송 값) 변수를 모델링할 수 없습니다.
  • 황금분할 탐색 또는 수동 간격을 사용하여 근린 검색을 정의할 수 없습니다.

ArcGIS API for Python 예시

지리 가중 회귀 분석 도구는 ArcGIS API for Python을 통해 제공됩니다.

이 예시에서는 전국 스토어의 판매 관계를 찾습니다.


# Import the required ArcGIS API for Python modules
import arcgis
from arcgis.gis import GIS

# Connect to your ArcGIS Enterprise portal and confirm that GeoAnalytics is supported
portal = GIS("https://myportal.domain.com/portal", "gis_publisher", "my_password", verify_cert=False)
if not portal.geoanalytics.is_supported():
    print("Quitting, GeoAnalytics is not supported")
    exit(1)   

# Search for and list the big data file shares in your portal
search_result = portal.content.search("", "Big Data File Share")

# Look through the search results for the big data file share of interest
bdfs_search = next(x for x in search_result if x.title == "bigDataFileShares_SalesData")

# Look through the big data file share for 2018 sales
sales_2018 = next(x for x in bdfs_search.layers if x.properties.name == "2018_Sales")

# Run the GWR tool
gwr_result = arcgis.geoanalytics.analyze_patterns.gwr(input_layer = sales_2018, 
    																																																		explanatory_variables = "population, customers",
    																																																		dependent_variable = "total_sales"
    																																																		model_type = "Continuous",
    																																																		neighborhood_type = "NumberOfNeighbors",
    																																																		neighborhood_selection_method = "UserDefined",
    																																																		number_of_neighbors = "100",
    																																																		local_weighting_scheme = "BiSquare",
    																																																		output_trained_name = "GWR_results")

# Visualize the results if you are running Python in a Jupyter Notebook
processed_map = portal.map()
processed_map.add_layer(gwr_result)
processed_map

유사한 도구

ArcGIS GeoAnalytics Server 지리 가중 회귀분석 도구를 사용하여 공간적으로 다양한 관계를 모델링할 수 있습니다. 서로 비슷하지만 약간 다른 문제를 해결하는 데 유용한 기타 도구를 사용할 수 있습니다.

Map Viewer Classic 분석 도구

ArcGIS GeoAnalytics Server 일반화된 선형 회귀 도구를 사용하여 일반화된 선형 모델 및 예측을 생성할 수 있습니다.

ArcGIS GeoAnalytics Server 포레스트 기반 분류 및 회귀 도구를 사용하여 모델과 예측을 생성할 수 있습니다.

ArcGIS Pro 분석 도구

ArcGIS Pro에서 해당 도구를 실행하려면 활성 포털이 Enterprise 10.8 이상이어야 합니다. GeoAnalytics 피처 분석을 수행할 수 있는 권한을 가진 계정을 사용하여 포털에 로그인해야 합니다.

ArcGIS Pro에서 유사한 회귀 작업을 수행할 수 있습니다.

포레스트 기반 분류 및 회귀 지오프로세싱 도구를 공간 통계 도구상자의 일부로 사용하여 ArcGIS Pro에서 Leo Breiman의 랜덤 포레스트 알고리즘의 채택을 통해 모델과 예측을 생성할 수 있습니다.