복합 인덱스는 여러 지표의 복잡한 정보를 단일 지표로 나타내 목표에 대한 진행 상황을 측정하고 의사결정을 용이하게 하기 위해 사회 및 환경 영역 전반에 걸쳐 사용됩니다. 복합 인덱스 계산 도구는 인덱스 생성 프로세스의 세 가지 주요 단계인 입력 변수를 공통 척도로 표준화(전처리), 변수를 단일 인덱스 변수로 결합(조합), 결과 인덱스를 의미 있는 값으로 크기 조정(후처리)을 지원합니다.
인덱스 디자인
적절한 인덱스를 생성하려면 인덱스가 답변하려는 질문, 변수 선택, 적용 방법에 대해 신중하게 고려해야 합니다. 도메인 전문가에게 자문하거나 최종 사용자의 의견을 묻는 것이 도움이 됩니다.
인덱스를 디자인할 때는 다음 사항을 고려합니다.
- 변수를 하위 인덱스로 구성할지 여부 인덱스가 측정하는 개념은 여러 디멘전으로 표현될 수 있습니다. 예를 들어 취약성 인덱스는 각각 여러 변수로 구성된 주택, 교통, 소득 영역으로 구성될 수 있습니다. 도구를 여러 번 실행하여 각 디멘전을 나타내는 하위 인덱스를 구성할 수 있습니다. 이는 해석 능력에 도움이 될 수 있으며, 사용 방법에 따라 인덱스 결과가 달라질 수도 있습니다.
- 변수 선택 방법 인덱스에 필요한 필수 정보는 충분히 확보하면서 입력 변수의 수를 줄이는 것이 가장 좋습니다. 입력 변수의 수가 많으면 인덱스를 해석하기가 어려울 수 있습니다. 또한, 여러 변수가 동일한 영역(예시: 중위 소득 및 빈곤)에 적용되는 경우 해당 영역의 영향이 인덱스 결과에 과도하게 나타날 수 있습니다. 이러한 영향을 의도하지 않은 경우 의도하지 않은 가중치라고 합니다.
변수 가중치 설정
변수에는 인덱스에 기여하는 각 계수의 상대적 중요도를 나타내기 위해 가중치가 부여됩니다. 기본 설정에 따라 모든 가중치는 1로 설정되며, 이는 각 변수에 동일한 가중치가 부여됨을 의미합니다. 그러나 다른 변수와 비교하여 변수의 상대적 기여도의 차이를 나타내는 것이 중요할 수 있습니다. 변수 중 하나의 가중치를 2로 변경하고 다른 변수의 가중치는 1로 유지하여 해당 변수가 최종 인덱스에 대한 기여도에서 다른 변수보다 두 배 더 중요하게 고려되어야 함을 나타냅니다.
합이 최대 1이 되는 가중치를 사용할 수도 있습니다. 예를 들어 세 개의 변수를 사용하면서 하나의 변수가 다른 두 변수보다 두 배 더 중요하다고 고려해야 하는 경우 가중치 값으로 0.5, 0.25, 0.25를 사용할 수 있습니다.
변수가 평균으로 결합되는 경우 각 변수에 해당 가중치를 곱하여 가중치를 적용합니다. 가중치가 기하 평균으로 결합되는 경우 각 변수에 해당 가중치를 거듭제곱하여 가중치를 적용합니다.
가중치는 결과 인덱스에 큰 영향을 미칩니다. 동일한 가중치를 유지하든 변수에 유리하도록 가중치를 변경하든 가중치를 사용하면 분석에 주관성이 더해집니다. 변수 간의 상관관계 및 분산 차이로 인해 의도치 않게 가중치를 부여할 수도 있습니다.
변수 전처리
적절한 인덱스를 생성하려면 변수가 호환 가능한 크기여야 합니다. 이를 위해 서로 다른 입력 변수를 공통 측정 척도로 가져와서 적절하게 결합할 수 있는 도구에서 전처리 옵션을 사용할 수 있습니다. 각 변수의 큰 값이 서로 일관된 의미를 가지도록 변수를 반전시킬 수도 있습니다.
방향을 반전하도록 변수 전처리
각 변수의 작은 값과 큰 값이 가진 의미를 고려하고 서로 일관되는지 확인합니다. 예를 들어, 사회적 취약성 인덱스에서 중위 소득이 낮은 지역은 더 취약하지만, 보험이 없는 인구 비율이 낮은 지역은 덜 취약하며, 해당 변수의 방향은 인덱스 목적과 관련하여 정반대입니다.
변수의 반전은 각 값에 -1을 곱하고 변수의 기존 범위 간 필드 크기를 조정하여 계산됩니다.
동일한 크기를 사용하도록 변수 전처리
이 도구에는 변수 크기 조정 및 결합 방법 매개변수를 사용하여 변수의 크기를 조정하는 여러 옵션이 포함되어 있습니다. 값 결합(크기 조정된 값의 평균) 및 차이 조합(크기 조정된 값의 기하 평균) 옵션은 최소값-최대값을 사용하여 크기를 조정합니다. 순위 결합(백분위수의 평균) 옵션은 백분위수를 사용하여 크기를 조정합니다. 극한값 강조(90번째 백분위수를 초과하는 값의 개수) 옵션은 이진 값을 사용하여 크기를 조정합니다. 선택한 옵션은 모든 변수에 적용되며 크기 조정된 필드가 결과에 제공됩니다. 다음과 같은 옵션이 제공됩니다.
최소값-최대값 — 이 변수는 각 변수의 최소값 및 최대값을 사용하여 0과 1 사이에서 크기가 조정됩니다. 이 방법은 입력 변수의 분포를 유지하고 크기를 해석하기 쉽도록 0에서 1 범위로 조정하기 때문에 가장 간단한 방법입니다.
이 방법은 다음 공식을 적용합니다.
이 방법은 변수 분포를 유지하므로 비대칭 분포 및 이상치의 영향을 받을 수 있습니다. 예를 들어 값이 매우 큰 하나의 이상치가 있는 경우 이상치 값은 1을 수신하지만 나머지 값은 0에 가까운 값이 됩니다. 전처리된 변수의 편차가 감소하기 때문에 이 변수가 결과 인덱스에 미치는 영향이 덜할 수 있습니다.
또한 이 방법은 입력 데이터의 최소값 및 최대값에 따라 달라지기 때문에 변수의 최소값 및 최대값이 각 시간 단계에 따라 변경될 수 있는 여러 기간에 걸친 인덱스 비교에는 적합하지 않습니다.
백분위수 — 이 변수는 0과 1 사이의 백분위수로 변환됩니다. 이 방법은 각 변수의 순위가 실제 값보다 더 중요한 경우에 유용할 수 있습니다. 또한 변수가 균일한 분포로 변환되기 때문에 이상치 및 비대칭 분포를 나타내는 데 강력합니다.
백분위수에 대한 다양한 정의가 있습니다. 이 방법은 다음 공식을 사용합니다.
,
여기서, R은 순서 순위(동점인 경우 최소 순위 값 사용)이고, N은 값의 수이며, P는 결과 백분위수입니다.
백분위수는 변수 내의 다른 값에 상대적인 값의 위치를 나타냅니다. 예를 들어, $50,000와 $60,000 사이의 소득 차이는 크지 않을 수 있지만, 그 사이에 값이 있는 피처가 많은 경우에는 백분위수 차이가 클 수 있습니다.
임계값별 플래그(이진) — 이 변수는 값이 지정된 임계값보다 크거나 작은지 여부를 나타내는 이진값(0, 1)으로 변환됩니다. 이 방법은 특정 값을 강조하는 것이 중요하며 값의 차이는 중요하지 않은 경우에 유용합니다.
이 방법은 입력 변수의 이상치에 영향을 받지 않지만 각 변수가 이진수(0, 1) 형태로 변환되기 때문에 각 입력 변수의 간격 레벨 정보가 손실됩니다.
- 원시 — 변수의 기존 값이 사용됩니다. 이 방법은 모든 변수가 비교 가능한 크기인 경우에만 사용해야 합니다. 예를 들어, 모든 변수가 백분율 또는 백만분율과 같은 표준 단위인 경우에 이 방법을 사용합니다. 이 방법은 변수 표준화 또는 변환이 이미 발생한 경우에도 유용할 수 있습니다.
변수 결합
변수가 공통 크기로 전처리되면 변수가 집계되어 단일 값이 생성됩니다. 변수 크기 조정 및 결합 방법 매개변수의 크기 조정된 값 결합(크기 조정된 값의 평균) 옵션은 평균별로 집계됩니다. 크기 조정된 값 조합(크기 조정된 값의 기하 평균) 방법은 기하 평균별로 집계됩니다. 극한값 강조(90번째 백분위수를 초과하는 값의 개수)는 합계별로 집계됩니다.
합계 및 평균은 가산식 방법입니다. 기하 평균은 승산식 방법입니다.
가산식 방법
합계 및 평균 결합 방법은 비교적 해석이 간단하고 다양한 인덱스에서 일반적으로 사용됩니다. 방법은 거의 동일하며, 결과적으로 크기만 다른 동일한 모양의 분포를 보이며 결과 인덱스 맵이 동일하게 나타납니다. 값만 다릅니다.
이 방법을 사용하면 한 변수의 큰 값이 다른 변수의 작은 값을 상쇄할 수 있습니다.
승산식 방법
승산식 방법은 한 변수의 큰 값이 다른 변수의 작은 값을 상쇄하는 것을 허용하지 않는다는 장점이 있으며, 여러 변수의 값이 커야 인덱스 값이 커집니다.
기하 평균은 승산식과 유사합니다. 기하 평균을 사용하는 인덱스는 분포가 동일한 모양이고 값만 다르기 때문에 승산식을 사용하여 변수를 결합하는 인덱스와 동일한 맵이 됩니다.
인덱스 후처리
변수가 전처리되고 원시 인덱스에 결합되면 후처리를 통해 인덱스를 더 이해하기 쉽게 만들 수 있습니다.
인덱스 반전
인덱스의 목적을 고려하고, 큰 인덱스 값이 의도한 대로 나타나는지 여부를 평가합니다. 인덱스를 반전하면 원시 인덱스의 큰 값이 최종 인덱스의 작은 값이 되며, 그 반대도 마찬가지입니다.
최소값 및 최대값을 사용하여 인덱스 크기 조정
최소값 및 최대값을 사용하여 인덱스 크기를 조정하면 결과 인덱스의 범위가 변경됩니다. 이 옵션은 사용된 전처리 및 조합 방법과 관계없이 해석하기가 더 쉬울 수 있습니다. 예를 들어 원시 인덱스의 크기를 이 범위로 조정하려면 최소값을 0으로 지정하고 최대값을 100으로 지정합니다. 이 옵션은 다음 공식을 사용합니다.
여기서, x는 기존 값, min(x)은 인덱스에서 확인된 최소값, max(x)는 인덱스에서 확인된 최대값, a는 지정된 최소값, b는 지정된 최대값, x'는 크기 조정된 값입니다.
결과 해석
인덱스 레이어는 선택적 크기 조정 또는 반전 후 인덱스 값의 분포를 표시합니다. 이 레이어는 인덱스 결과를 평가하는 데 사용할 수 있는 연속 등치 맵을 제공합니다. 맵을 사용하여 인덱스 분포 및 이상치를 유지하면서 큰 인덱스 값과 작은 인덱스 값을 평가할 수 있습니다.
레이어에는 결과를 탐색하는 데 사용할 수 있는 다음 필드도 포함되어 있습니다.
- 인덱스 값 간의 상대적 위치(순위)를 나타내는 백분위수 필드 실제 인덱스 차이 대신 해당 순위를 기반으로 위치 간의 연계성을 살펴보려면 이 필드를 사용합니다.
- 인덱스가 5개의 동일한 간격 클래스로 분류된 필드
- 인덱스가 5개의 등도수 클래스로 분류된 필드
- 인덱스가 6개의 표준편차 클래스로 분류된 필드 각 위치의 인덱스 값과 평균 인덱스 값의 연계성에 대해 살펴보고 인덱스 값이 매우 높거나 낮은 위치를 식별하려면 이 필드를 사용합니다.
추가 리소스
자세한 내용은 Organisation for Economic Co-operation and Development의 복합 지표 구성 안내서: 방법론 및 사용자 가이드를 참고하세요.