Skip To Content

データセットの記述 (Describe Dataset)

[データセットの記述 (Describe Dataset)][データセットの記述 (Describe Dataset)] ツールを使用すると、ビッグ データの概要を取得することができます。デフォルトでは、ツールはフィールド値のサマリーと、入力レイヤーのジオメトリおよび時間設定の概要を含むテーブル レイヤーを出力します。必要に応じて、ツールで入力フィーチャのサンプルを表すフィーチャ レイヤー、または入力フィーチャの範囲を表す単一のポリゴン フィーチャ レイヤーを出力できます。いずれか 1 つまたは両方を出力するか、どちらも出力しないかを選択できます。

ワークフロー図

[データセットの記述 (Describe Dataset)] のワークフロー図

解析での使用 GeoAnalytics ツール

GeoAnalytics ツール を使用した解析は、複数の ArcGIS GeoAnalytics Server コンピューターやコアにまたがる分散型処理を使用して実施されます。GeoAnalytics ツールArcGIS Enterprise の標準的なフィーチャ解析ツールは、異なるパラメーターと機能を持ちます。これらの相違点については、「フィーチャ解析ツールの相違点」をご参照ください。

  • ビッグ データ ファイル共有に時間とジオメトリを正しく登録できたことを確認します。
  • 集約されたフィールド統計情報を使用して、属性値を把握します。
  • サンプル レイヤーを使用してビッグ データを視覚化します。100 万個のフィーチャを描画する代わりに、サンプルを描画します。
  • 長時間および大規模な処理を行うためにスケーリングする前に、サンプル データを使用してワークフローを実行します。
  • 地理的範囲を計算して、データセットの場所を特定します。

使用上の注意

[説明するデータセットの選択] オプションを使用して、説明する表形式、ポイント、ライン、またはエリア フィーチャ レイヤー、またはビッグ データ ファイル共有データセットを参照します。

[サンプル レイヤー] ボタンをクリックして、表示される値ピッカーでフィーチャ数を指定して、データのサブセットを出力します。出力サブセットには、入力フィーチャと常に同じスキーマ、ジオメトリ、および時間設定が含まれています。サブセットを使用して、ビッグ データがマップに追加されるか、属性テーブルで視覚化された場合の外観を把握できます。さらに、サンプル データセットに対して解析を実行することで、データセット全体に対して大規模な分析を行う際の最適な入力を決定することができます。

[範囲レイヤー] を選択し、入力データセットの範囲を表す境界フィーチャを出力します。出力は常に、入力フィーチャの地理的範囲を表す単一の四角形フィーチャになります。範囲レイヤーを使用してデータの場所を把握するか、ワークフローの他の場所で入力として使用できます。たとえば、[レイヤーのクリップ (Clip Layer)] GeoAnalytics ツールを使用して、フィーチャをクリップするエリア レイヤーとして範囲レイヤーを使用できます。

[現在のマップ範囲を使用] がオンの場合、現在のマップ範囲に存在するフィーチャだけが解析されます。オフの場合、入力レイヤーのすべての入力フィーチャが、現在のマップ範囲内になくても解析されます。たとえば、サンプル レイヤーを出力する際に [現在のマップ範囲を使用] をオフにした場合、データセット全体がサンプル結果に使用されます。サンプル レイヤーを出力する際に [現在のマップ範囲を使用] をオンにした場合、出力される境界線はマップ範囲を表します。

デフォルトでは、ツールは各フィールドのサマリー統計情報と、入力レイヤーのプロパティの内容を示した JSON を含むテーブルを出力します。JSON 文字列にアクセスするには、[コンテンツ] ウィンドウのサマリー統計情報テーブル レイヤーにポインターを合わせたときに表示される [結果の表示] ボタン 結果の表示 をクリックします。

JSON 文字列は、次の情報を含んでいます。

  • datasetName - 説明されているデータセットの名前。
  • datasetSource - 入力データセットの格納場所。この値は、ArcGIS Data Store — RelationalArcGIS Data Store — Spatiotemporal、または Big Data File Share - <your_bdfs_name> にすることができます。
  • recordCount - 入力データセット内のレコードの総数。
  • geometry - 入力レイヤーのジオメトリ設定。
    • geometryType - 入力フィーチャが表すジオメトリのタイプ。この値は、PointLinePolygon、または Table にすることができます。
    • sref - 入力フィーチャが使用する空間参照。たとえば、この値を {"wkid": 26972} にすることができ、26972 は空間参照 ID です。
    • countNonEmpty - 有効なジオメトリを含んでいるフィーチャの数。
    • countEmpty - 有効なジオメトリを含んでいないフィーチャの数。
    • spatialExtent - 最小座標値および最大座標値によって表されたフィーチャの地理的範囲。
  • time - 入力レイヤーの時間設定。
    • timeType - 入力フィーチャが表す時間のタイプ。この値は、InstantInterval、または None にすることができます。
    • countNonEmpty - 有効な時間を含んでいるフィーチャの数。
    • countEmpty - 有効な時間を含んでいないフィーチャの数。
    • temporalExtent - 最小時間値および最大時間値によって表されたフィーチャの時間範囲。

時間設定とビッグ データ ファイル共有データセットの詳細

ジオメトリ設定とビッグ データ ファイル共有データセットの詳細

制限事項

サンプル レイヤーは、正確にランダムなジオグラフィを表すものではないため、データの地理的範囲や分布を理解するためには使用しないでください。たとえば、[含めるフィーチャの数] に「230」個のフィーチャを指定した場合、結果には順番や場所が考慮されない 230 個の入力フィーチャが含まれます。

[データセットの記述 (Describe Dataset)] の仕組み

演算

サマリー統計情報は、入力レイヤーの各フィールドに対して計算されます。フィールドは、そのフィールド タイプに応じて異なる統計情報を出力します。次の土壌の深度の例は、各フィールド タイプに対する統計情報の計算方法の概要を示しています。

計算された統計情報で集計されたフィーチャの例
これらの入力フィーチャの例は集計され、以下の計算された統計情報として出力されます。

数値統計情報計算結果

次の個数:

[130, 8, 250, 0, null] = 4

合計

130 + 8 + 250 + 0 + null = 388

最小値

次のうちの最小値:

[130, 8, 250, 0, null] = 0

最大値

次のうちの最大値:

[130, 8, 250, 0, null] = 250

中央値

388/4 = 97

範囲値

250-0 = 250

分散

= 13942.66667

標準偏差

= 118.0791

日付統計情報計算結果

次の個数:

[1538738400000, 1507202400000, 1475666400000, 1412508000000, null] = 4

最小値

次のうちの最小値:

[1538738400000, 1507202400000, 1475666400000, 1412508000000, null] = 1412508000000

最大値

次のうちの最大値:

[1538738400000, 1507202400000, 1475666400000, 1412508000000, null] = 1538738400000

範囲値

1538738400000-1412508000000 = 126230400000
備考:

ArcGIS Data Store に保存された結果は、常にエポック UTC (協定世界時) からのミリ秒で保存されます。たとえば、UTC 時間の 1,538,713,350,000 ミリ秒は、GMT タイム ゾーンの 2018 年 10 月 5 日金曜日午後 4 時 22 分 30 秒に相当します。

文字列の統計情報計算結果

["high", "high", "high", "low", null] = 4

すべての

= "low"

備考:

個数統計 (文字列フィールドと数値フィールド) は、空でない値を数えます。[0, 1, 10, 5, null, 6] = 5 の個数。[Primary, Primary, Secondary, null] = 3 の個数。

ArcGIS API for Python の例

[データセットの記述 (Describe Dataset)] ツールは ArcGIS API for Python で使用できます。

この例では、ビッグ データ ファイル共有内のハリケーン追跡データセットについて説明し、200 個のハリケーン フィーチャと範囲レイヤーのサブセットを出力します。


# Import the required ArcGIS API for Python modules
import arcgis
from arcgis import geoanalytics as ga
from arcgis.gis import GIS
# Connect to your ArcGIS Enterprise portal and check that GeoAnalytics is supported
portal = GIS("https://myportal.domain.com/portal", "gis_publisher", "my_password", verify_cert=False)
if not portal.geoanalytics.is_supported():
    print("Quitting, GeoAnalytics is not supported")
    exit(1)   
# Find the big data file share dataset you're interested in using for analysis
search_result = portal.content.search("", "Big Data File Share")
# Look through search results for a big data file share with the matching name
bd_file = next(x for x in search_result if x.title == "bigDataFileShares_NaturalDistasters")
# Look through the big data file share for Hurricanes
hurricanes = next(x for x in bd_file.layers if x.properties.name == "Hurricanes")
# Run the tool Describe Dataset
result = ga.summarize_data.describe_dataset(input_layer=hurricanes, sample_size=200, extent_output=true, output_name="Hurricanes_describe")
# Visualize the sample and extent layers if you are running Python in a Jupyter Notebook
processed_map = portal.map()
processed_map.add_layer(result)
processed_map

類似のツール

サンプル、統計情報、および集計を使用してデータを調査する場合は、[データセットの記述 (Describe Dataset)] を使用します。その他のツールは、類似した少し異なる問題を解決するのに効果的です。

Map Viewer解析ツール

[ポイントの集約 (Aggregate Points)] ArcGIS GeoAnalytics Server ツールを使用して、データセットをビンまたは面積に集計し、サマリー統計情報を出力します。

[レイヤーのクリップ (Clip Layer)] ArcGIS GeoAnalytics Server ツールを使用して、特定の地域内にデータのサブセットを作成します。

ArcGIS Desktop 解析ツール

ArcGIS Pro からこのツールを実行するには、アクティブなポータルが Enterprise 10.7 以降である必要があります。GeoAnalytics フィーチャ解析を実行できる権限を持つアカウントでサイン インする必要があります。