[外れ値の検索] ツールは、データの空間パターンに、統計的に有意な外れ値が存在するかどうかを判定します。
ワークフロー図
例
- ロサンゼルス市内で変則的な消費パターンが見られる場所はどこか?
- 分析範囲における富裕層と貧困層の間の最も明確な境界はどこか?
- 周囲に販売実績が高い店舗があるにもかかわらず、売上が低い店舗があるか?
- 分析範囲全体にわたって糖尿病発生率が予想外に高い場所はどこか?
- 近隣と比較して異常に平均余命が低い米国内の郡はあるか?
使用に関する注意
入力フィーチャはポイントまたはエリアである場合があります。
[高い/低い値のクラスターを検索] パラメーターを使用すると、フィーチャの空間配置を評価できます。フィーチャがエリアの場合は、フィールドを選択する必要があります。外れ値を決定するには、選択したフィールド内の数値を使用します。ポイント フィーチャ解析は、フィールドまたは [ポイント数] オプションを使用して行うことができます。[ポイント数] を使用すると、高いフィールド値と低いフィールド値ではなく、ポイント自体が異常に分散しているかクラスター化しているかが決まります。
[ポイント数] を使用してポイントを解析する場合は、新しい 2 つのオプションを使用できます。[範囲内のポイントのカウント] パラメーターを使用すると、[コンテンツ] (郡や郵便番号など) から [フィッシュネット グリッド]、[六角形グリッド]、またはエリア レイヤー内のポイントを集約できます。[ポイントが存在する可能性がある場所を定義] パラメーターを使用すると、対象となる 1 つまたは複数のエリアを作成できます。このパラメーターには、[なし] (すべてのポイントが使用される)、[コンテンツ] 内のエリア レイヤーで定義されたエリア、[描画] ツールで作成されたエリアという 3 つのオプションがあります。
データは [除数] パラメーターを使用して正規化できます。[Esri Population] データでは、ジオエンリッチメント が使用され、クレジットを使用する必要があります。入力レイヤーのフィールドを使用して正規化するオプションもあります。正規化に使用できる値には、世帯数やエリア数などがあります。
このツールで採用されている統計では順列を使用し、ランダムに生成された一連の値と比較して分析する値の実際の空間分布が検出される可能性がどれくらいあるかを判断できます。[最適化の対象] パラメーター内の順列の数を選択する場合は、[精度] と処理時間 ([速度]) の増加とのバランスを考慮します。初期段階で問題を調査する場合には順列の数を少なくしてもかまいませんが、通常は順列の数を増やし、最終結果に適した [精度] にすることが最善策です。
[オプション] ドロップダウン メニューを使用して、自分の分析に適した特定の [セル サイズ] または [距離バンド] の値を設定できます。
出力レイヤーには、クラスター/外れ値タイプ、各フィーチャが解析に使用した近隣数、Local Moran's I インデックス、各フィーチャの値およびスコアなどの情報を含む追加フィールドがあります。また、出力レイヤーには、[アイテムの詳細] の [説明] セクションでの統計解析に関する情報も含まれています。
外れ値の検索 ツールの詳細
人間の目と脳は、パターンが存在しなくても見つけようとする性質があるため、データ内のパターンが実際に空間プロセスを経て得られた結果なのか、偶然得られた結果に過ぎないのかを判別するのが困難な場合があります。そのため、研究者とアナリストは、空間パターンを定量化するために [外れ値の検索] (Anselin Local Moran's I) のような統計手法を使用しています。データ内に見つかった統計的に有意な外れ値やクラスターは、価値の高い情報です。外れ値とクラスターが発生した場所と時期がわかると、見つかったパターンの利用を促進するうえで重要な手掛かりとなります。たとえば、空き巣がある特定の近隣地区で一貫して高いという情報は、効果的な防止策を作ったり、貴重な警察のリソースを割り当てたり、地区を監視するプログラムを開始したり、徹底的な犯罪調査の根拠にしたり、参考人を特定したりする必要がある場合に重要な情報になります。
[外れ値の検索] ツールでは、データセット内の各フィーチャに対する Local Moran's Index (LMiIndex) が計算されます。結果が正の値である場合は、フィーチャの近隣フィーチャが同様に高いまたは低い属性値をもち、 このフィーチャがクラスターの一部であることを示しています。結果が負の値である場合は、フィーチャの近隣フィーチャが異なる値をもっており、このフィーチャが外れ値であることを示します。どちらの場合も、統計的に有意なクラスターまたは外れ値であると見なすためには、フィーチャの p 値が十分に小さいものである必要があります。統計的有意性を判断する方法の詳細については、「Z スコアとは、 p 値とは」をご参照ください。Local Moran's I インデックス (I) は、相対的な測定であり、計算された Z スコアまたは p 値との関係の中でしか解釈できないものです。クラスター/外れ値タイプ (COType) フィールドでは、高い値をもつ統計的に有意なクラスター (HH)、低い値をもつクラスター (LL)、高い値が主に低い値に取り囲まれている外れ値 (HL)、低い値が主に高い値に取り囲まれている外れ値 (LH) が区別されます。
エリア フィーチャ解析
エリア フィーチャには、国勢調査区、郡、選挙区、病院地区、土地区画、公園およびレクリエーション境界、集水域、土地被覆分類および気候帯など、非常に多くのデータがあります。解析レイヤーにエリア フィーチャが含まれている場合、高い値および低い値の外れ値を検索するために使用する数値フィールドを指定する必要があります。これには次のようなフィールドが考えられます。
- 数 (世帯数など)
- 比率 (学位を持っている人口比率など)
- 平均 (世帯収入の平均値、中央値など)
- インデックス (世帯のスポーツ用品の消費額が国の平均より多い/少ないことを示すスコアなど)
[外れ値の検索] ツールは、指定したフィールドを使用して、高い値 (赤色) と低い値 (青色) の統計的に有意な外れ値があるエリア、および高い値 (ピンク色) と低い値 (薄い青色) の統計的に有意なクラスターがあるエリアを表示するマップ (結果レイヤー) を作成します。
ポイント フィーチャ解析
ポイント フィーチャとして、さまざまなデータが利用できます。ポイントとしてよく表現されるフィーチャとしては、犯罪事件、学校、病院、緊急通報地点、交通事故、井戸、樹木、ボートなどがあります。分析の対象は、各ポイント フィーチャに関連付けられたデータ値 (フィールド) である場合があります。あるいは、ポイント自体のクラスター化または分散の評価だけが対象となる場合もあります。フィールドを指定するかどうかの判断は、質問の内容によって変わります。
ポイント フィーチャに関連する値が高い/低い外れ値の検索
「変則的な高い値と低い値が存在する場所はどこか?」のような疑問に答える場合は、分析フィールドを指定します。選択するフィールドは以下のいずれかを表します。
- 個数 (交差点での交通事故件数など)
- 比率 (都市の失業率など。各都市がポイント フィーチャとして表される)
- 平均 (学校間のテスト スコアの平均計算など)
- インデックス (郡内のカー ディーラーの顧客満足度など)
ポイント数が多い/少ない外れ値の検索
各ポイントがイベント、インシデント、存在の有無を表すようなポイント データの場合、使用する分析フィールドが明確に存在しません。このような場合、クラスター化が著しく (統計的に有意な程度に) 強い/弱いエリアがわかれば十分です。この分析の場合、エリア フィーチャ (ツールが作成したフィッシュネット グリッドまたは六角形グリッド、または指定したエリア レイヤー) がポイント上に配置され、各エリア内にあるポイント数がカウントされます。続いて、各エリア フィーチャに関連するポイント数の多い外れ値と少ない外れ値が検索されます。
ポイントが存在する可能性がある場所を定義
インシデント ポイント フィーチャが発生する可能性があるすべての位置に対して分析を実行するには、エリア レイヤーを指定するか、分析範囲を定義するエリアを描画します。このオプションでは、[外れ値の検索] ツールは定義された分析範囲にフィッシュネット グリッド (デフォルト) または六角形グリッドをオーバーレイして、各グリッド セルにあるポイントをカウントします。このオプションを使用してインシデント ポイントが存在する可能性がある場所を指定しない場合、[外れ値の検索] ツールは、少なくとも 1 つのポイントを含むグリッド セルだけを分析します。一方、このオプションを使用してポイントが存在する可能性があるすべての場所を定義した場合、定義した境界エリア内にあるすべてのグリッド セルに対して分析が実行されます。
独自の集計エリアでのポイントのカウント
国勢統計区、警察の巡回区域、土地区画などのエリア フィーチャの方が、デフォルトのフィッシュネット グリッドまたは六角形グリッドより分析に適している場合があります。
除数の選択
外れ値を識別するには、次の 2 つの一般的な手法があります。
- カウントによる方法 - 特定のデータセットを分析するときに、分析範囲内の集計エリアごとにフィーチャ数の外れ値を検索します。たとえば、通常犯罪件数の低いエリアで非常に多くの犯罪が起きた場所の外れ値や、犯罪件数の高いエリアで犯罪が非常に少なかった場所の外れ値を検索することで、配置されたリソースで最大限の効果を得ることができます。
- 強度による方法 - 一方、特定の現象に影響する基本分布を考慮したパターンの分析と理解が意味を持つ場合もあります。この考え方は正規化とも呼ばれ、領域のサイズまたは各領域のフィーチャ数に基づいて値の差を最小化するために、数値属性を別の数値属性で割る処理です。たとえば、犯罪に関するデータを使用し、人口を考慮して犯罪件数の高い外れ値またはクラスター、犯罪件数の低い外れ値またはクラスターの場所を調査するとします。この場合は、エリアごとに犯罪件数をカウントし (エリアはフィッシュネット グリッドまたは別のエリア データセットのいずれか)、その犯罪件数の合計をそのエリアの総人口で除算します。これにより、犯罪率 (1 人あたりの犯罪件数) が得られます。1 人あたりの犯罪の外れ値エリアを検索することで、意思決定に役立つ別の課題も解決されます。
分析範囲内のデータを分析する方法として、どちらも有効です。どちらの方法を使用するかは、質問の内容によって変わります。
除数として使用する属性を適切に選択することが重要です。[除数] の属性が、分析している特定の現象の分布に実際に影響のある属性であることを確認する必要があります。
[除数] として [Esri Population] を選択すると、Esri Demographics Global Coverage の人口データが使用されます。調査エリアで使用できるデータの解像度を確認し、情報を付加するエリア (指定する集計エリア、または作成しているフィッシュネットのマス目) のサイズと互換性があることを確認してください。
結果の解析
[外れ値の検索] ツールの出力はマップです。結果レイヤー マップのポイントまたはエリアで、暗い赤色または青色で表示されているものは、調査エリアで統計的に有意な外れ値であることを示しています。明るい青色およびピンク色で表示されているものは、統計的に有意なクラスター化を示しています。一方、ベージュ色のポイントまたはエリアは、統計的に有意な外れ値またはクラスターではありません。これらのフィーチャと関連付けられた空間パターンは、偶然の結果である可能性が高くなります。分析の結果、統計的に有意な外れ値またはクラスターがまったく存在しない場合があります。これは、認識しておくべき重要な情報です。空間パターンがランダムである場合、結果の原因を特定することができません。この場合、結果レイヤー内のすべてのフィーチャがベージュ色になります。一方、統計的に有意な外れ値またはクラスターが見つかった場合、その場所は、事象の要因についての重要な手掛かりになります。たとえば、特定の環境有害物質に関連付けられた高いガン発症率に関して、統計的に有意な空間外れ値が見つかった場合、これによって人々の命を守ることを目的とした政策や活動が生まれることもあります。同様に、放課後のスポーツ プログラムを促進している学校と関連付けて、子供の肥満の低い外れ値が見つかった場合、この種のプログラムをより広範に推進していくための強力な根拠にすることができます。
トラブルシューティング
[外れ値の検索] ツールで使用される統計手法は確率理論に基づいているため、この手法では、最小数のフィーチャが効果的に機能する必要があります。また、この統計手法では、さまざまなカウント値または分析フィールド値も必要とされます。たとえば、国勢調査地区による犯罪事件の分析を行った結果、各地区の犯罪件数がまったく同じ数になった場合、このツールでは解析はできません。次の表に、[外れ値の検索] ツールの使用時に表示されるメッセージを示します。
メッセージ | 問題 | 解決策 |
---|---|---|
選択した解析オプションには、ホット スポットとコールド スポットを計算するために最低 60 個のポイントが必要です。 | ポイント解析レイヤーで信頼性のある結果を計算するには、ポイント フィーチャの数が不足しています。 | 確実な解決策は、ポイントを解析レイヤーに追加することです。 別の方法として、境界分析エリアを定義することで、ポイントが発生している可能性がある場所に関する情報を追加してみることができます。この手法では、少なくとも 30 個のポイントが必要です。 また、ポイント群をオーバーレイする集約エリアを指定してみることもできます。この分析では、それらのエリア内に少なくとも 30 個のポリゴンと 30 個のポイントが存在している必要があります。 30 個以上のポイントが存在する場合は、分析フィールドを指定することも可能です。この場合、疑問点は、「ポイントが多いまたは少ない場所はどこか。」から「分析フィールドの高い値と低い値が空間的にクラスター化している場所はどこか。」に変わります。 |
選択した解析オプションには、ホット スポットとコールド スポットを計算するために、解析フィールド内に最低 30 個の有効なデータを持つポイントが必要です。 | 解析レイヤーで信頼性のある結果を計算するには、ポイントの数、または NULL 以外の分析フィールド値に関連付けられたポイントの数が不足しています。 | 残念ながら、存在しているポイントが 30 個未満の場合、この分析手法はユーザーのデータには適していません。30 個を超えるポイントが存在する状況でこのメッセージが表示された場合は、指定した分析フィールドに NULL 値が含まれている可能性があります。NULL 分析フィールド値が指定されたポイントはスキップされます。この他に、[フィルター] が有効に設定されているため、分析に利用可能なポイントの数が減少している可能性もあります。 |
選択した解析オプションには、ホット スポットとコールド スポットを計算するために、解析フィールド内に最低 30 個の有効なデータを持つポリゴンが必要です。 | 解析レイヤーで信頼性のある結果を計算するには、ポリゴン エリアの数、または NULL 以外の分析フィールド値に関連付けられたエリア フィーチャの数が不足しています。 | 残念ながら、存在しているポリゴン エリアが 30 未満の場合、この分析手法はユーザーのデータには適していません。30 個を超えるエリアが存在する状況でこのメッセージが表示された場合は、指定した分析フィールドに NULL 値が含まれている可能性があります。NULL 分析フィールド値が指定されたポリゴン エリアはスキップされます。この他に、[フィルター] が有効に設定されているため、分析に利用可能なポリゴン エリアの数が減少している可能性もあります。 |
選択した解析オプションには、境界ポリゴン エリア内部に最低 30 個のポイントが必要です。 | 描画または指定した境界分析エリアの範囲内にあるポイントだけが分析されます。信頼性のある結果を生成するには、少なくとも 30 個のポイントが境界分析エリア内に存在している必要があります。 | 残念ながら、30 個以上のポイントが存在しない場合、この手法はユーザーのデータには適していません。ただし、30 個以上のフィーチャがあれば、より広範囲の別の境界分析エリアを指定することがこの場合の解決策になることがよくあります。 別の方法として、30 個以上のポイントをオーバーレイする集約ポリゴンを少なくとも 30 個含んでいるエリア レイヤーを指定することもできます。集約エリアを指定すると、各エリア内のポイント数に対して分析が実行されます。 |
選択した解析オプションには、集約ポリゴン内部に最低 30 個のポイントが必要です。 | 集約ポリゴン内にあるポイントだけが分析に含まれます。信頼性のある結果を生成するには、少なくとも 30 個のポイントが指定のポリゴン エリア内に存在している必要があります。 | 残念ながら、30 個以上のポイントが存在しない場合、この手法はユーザーのデータには適していません。30 個以上のポイントが存在している場合は、それらのポイントのうち、30 個以上をオーバーレイする境界分析エリアを指定または描画する必要があります。境界エリアには、ポイントが発生する可能性があるすべての場所が反映されている必要があります。 |
選択した解析オプションには、最低 30 の集約エリアが必要です。 | 選択したオプションでは、ポイント群の上部に集約エリアがオーバーレイされ、各エリア内のポイントの数がカウントされます。信頼性のある結果を生成するには、少なくとも 30 の個数 (30 のエリア) が必要です。 | 30 以上の集約エリア内にあるポイントを少なくとも 30 個指定すると、信頼性のある結果を計算できます。集約エリアが 30 に満たない場合は、ポイントのうち、30 個以上をオーバーレイする境界分析エリアを描画または指定してみることもできます。これらの境界エリアには、ポイントが発生する可能性があるすべての場所が反映されている必要があります。 |
すべてのポリゴン エリア内のポイント数が同一である場合、ホット スポットとコールド スポットは計算できません。異なるポリゴン エリアまたは異なる分析オプションを使用してください。 | [ホット スポット分析] ツールによって、各集約エリア内のポイント数がカウントされた結果、個数がすべて同じであることが判明しました。このツールで結果を計算するには、取得されたカウント値に少なくともある程度のばらつきがなければなりません。 | すべてのエリアにまったく同じ数のポイントが含まれることがない別の集約エリアを指定できます。 集約エリアではなく、境界分析エリアを描画また指定してみることもできます。 あるいは、分析フィールドを指定できます。ただし、この場合、疑問点は、「ポイントが多いまたは少ない場所はどこか」から「分析フィールドの高い値と低い値が空間的にクラスター化している場所はどこか」に変更されます。 |
ホット スポットとコールド スポットを計算するために、ポイント位置に十分なばらつきがありません。たとえば、一致ポイントがあると空間的変動が少なくなります。境界エリア、集約エリア (最低 30)、または解析フィールドを指定して実行することができます。 | このツールでは、ポイントの数とそれらのポイントの分布状況に基づいて、ポイント群をオーバーレイするためのフィッシュネット グリッドを作成します。フィッシュネットのそれぞれのマス目にあるポイント数がカウントされ、カウント値が 0 のマス目が削除された後、残ったマス目の数が 30 未満でした。このツールで信頼性のある結果を生成するには、少なくとも 30 の個数 (30 のマス目) が必要です。 | ポイントが存在している一意の場所が非常に少ない場合 (多くの一致ポイントが存在している場合)、推奨される解決策は、ポイント群をオーバーレイする集約エリアを指定するか、ポイントが存在する場所とポイントが存在し得ない場所を示す境界分析エリアを指定することです。 その他に、分析フィールドを指定することもできます。ただし、この場合、疑問点は、「ポイントが多いまたは少ない場所はどこか」から「分析フィールドの高い値と低い値が空間的にクラスター化している場所はどこか」に変更されます。 |
境界ポリゴン エリア内のポイント間に十分なばらつきがありません。より大きな境界を指定して実行できます。 | このツールでは、ポイントの位置とポイントの数に基づいて、ポイント群をオーバーレイするためのフィッシュネット グリッドを作成します。フィッシュネットのそれぞれのマス目にあるポイント数がカウントされ、境界分析エリア外にあるマス目が削除された後、残ったフィッシュネットのマス目の数が 30 未満でした。このツールで信頼性のある結果を生成するには、少なくとも 30 の個数 (30 のマス目) が必要です。 | ポイントが境界分析エリア内のさまざまな場所に配置されている場合は、より広範囲の境界を作成または指定するだけで十分です。ポイントが存在している一意の場所が非常に少ない場合 (多くの一致ポイントが存在している場合)、推奨される解決策は、ポイント群をオーバーレイする集約エリアを指定することです。 その他に、分析フィールドを指定することもできます。ただし、この場合、疑問点は、「ポイントが多いまたは少ない場所はどこか」から「分析フィールドの高い値と低い値が空間的にクラスター化している場所はどこか」に変更されます。 |
解析フィールドのすべての値が同じと考えられます。解析対象のフィールド内に十分なばらつきがない場合、ホット スポットとコールド スポットは計算できません。 | 多くの場合、解析レイヤー内のすべてのポイントまたはエリア フィーチャについて同一の値が含まれる分析フィールドが指定されています。さまざまな値が解析の対象となっていない場合、このツールで使用される統計では解析できません。 | |
指定されたデータに対して、ホット スポットとコールド スポットを計算できませんでした。必要であれば、解析フィールドを指定して実行してください。 | 通常ありえませんが、ツールによってフィッシュネット グリッドが作成され、それぞれのマス目にあるポイント数がカウントされた結果、すべてのマス目の個数が同一でした。 | 独自の集約エリアの指定、境界分析エリアの指定/描画、または分析フィールドの指定のいずれかが解決策になります。 |
セル サイズは距離バンドよりも小さくなければなりません。 | 距離バンドの値を各グリッド セルのサイズよりも小さい値に設定しました。 | [距離バンド] と [セル サイズ] の両方に指定した単位を確認し、ツールで計算されたデフォルトの値を使用するか、1 つのグリッド セル サイズよりも大きい値を使用します。 |
[外れ値の検索] ツールで使用されているアルゴリズムに関する追加情報については、「[最適化外れ値分析 (Optimized Outlier Analysis)] の詳細」をご参照ください。
類似のツール
[外れ値の検索] を使用して、データの空間パターンに、統計的に有意な外れ値が存在するかどうかを判定します。その他の役に立つツールを以下に紹介します。
マップ ビューアーの解析ツール
データの空間パターンにおいて、高い値と低い値の統計的に有意なクラスターを見つける場合は、[ホット スポット分析] ツールを使用します。
ポイント計測またはライン計測を使用して密度マップを作成する場合は、[密度の計算] ツールを使用します。
ArcGIS Desktop 解析ツール
[外れ値の検索] ツールは、[クラスター/外れ値分析 (Cluster and Outlier Analysis (Anselin Local Moran's I))] ツールおよび [最適化外れ値分析 (Optimized Outlier Analysis)] ツールで使用されるのと同じ統計を実行します。