Skip To Content

ビッグ データ ファイル共有の基本操作

注意:

10.9.1 以降、ビッグ データ ファイル共有の登録は、ポータルのコンテンツ ページから行います。 ビッグ データ ファイル共有を登録するときは、この方法をお勧めします。 Server Manager を使用してビッグ データ ファイル共有が作成され、ポータルのビッグ データ ファイル共有に置き換えていない場合のみ、Server Manager を編集に使用するようにしてください。

ビッグ データ ファイル共有は、ポータルに作成されるアイテムであり、ArcGIS GeoAnalytics Server が利用できる場所を参照します。 ビッグ データ ファイル共有の場所は、GeoAnalytics ツールのフィーチャ データ (ポイント、ポリライン、ポリゴン、およびテーブル データ) の入力および出力として使用できます。 ビッグ データ ファイル共有をポータルのコンテンツ ページで作成する場合、少なくとも 2 つのアイテムがポータル内に作成されます。

  • データ ストア (ビッグ データ ファイル共有) アイテム
  • ビッグ データ ファイル共有アイテム
  • データ ストア (クラウド ストレージの場所) アイテム (ビッグ データ ファイル共有用のクラウド ストレージ データ ストアを登録している場合)
ビッグ データ ファイル共有アイテムはビッグ データ カタログ サービスを指し、このサービスは、ジオメトリおよび時間の情報を含むビッグ データ ファイル共有内のデータセットおよびそれらのスキーマ、ならびに登録したテンプレートと呼ばれる出力形式の概要を示します。 ビッグ データ ファイル共有を ArcGIS GeoAnalytics Server ツールの入力に使用する場合、ビッグ データ ファイル共有アイテムを参照して、データセットに対して解析を実行できます。

注意:

ビッグ データ ファイル共有は、ポータル管理者が GeoAnalytics Server を有効化している場合にのみ使用できます。 GeoAnalytics Server の有効化の詳細については、「ArcGIS GeoAnalytics Server の設定」をご参照ください。

ビッグ データ ファイル共有

ビッグ データ ファイル共有を使用することには、いくつかの利点があります。

  • 解析を実行する準備ができるまで、アクセス可能な場所にデータを保存しておくことができます。 ビッグ データ ファイル共有では、解析が実行されたときにデータにアクセスします。このため、データを再登録または公開する必要なく、データをビッグ データ ファイル共有内の既存のデータセットに継続して追加できます。
  • マニフェストを変更して、ビッグ データ ファイル共有内のデータセットを削除、追加、または更新することもできます。
  • ビッグ データ ファイル共有は、時間とジオメトリの定義方法に関して極めて柔軟であり、1 つのデータセットを対象とする複数の時間形式に対応できます。
  • また、ビッグ データ ファイル共有では、データセットのパーティション化が可能であると同時に、複数のパーティションを 1 つのデータセットとして処理できます。
  • ビッグ データ ファイル共有を出力データに使用すると、他のワークフローに使用できる形式 (さらに解析するか、格納するための Parquet ファイルなど) で結果を格納できます。

注意:

ビッグ データ ファイル共有は、GeoAnalytics Tools を実行した場合にのみアクセスできます。 つまり、ビッグ データ ファイルを参照して解析に追加することだけが可能であり、そのデータをマップ上で視覚化することはできません。

ビッグ データ ファイル共有は、次の入力データ ソースを参照できます。

  • ファイル共有 - ローカル ディスクまたはネットワーク共有上のデータセットのディレクトリ。
  • Apache Hadoop Distributed File System (HDFS) - データセットの HDFS のディレクトリ。
  • Apache Hive - Hive メタストア データベース。
  • クラウド ストレージ - データセットのディレクトリを含んでいる Amazon Simple Storage Service (S3) バケット、Microsoft Azure BLOB コンテナー、または Microsoft Azure Data Lake Storage Gen2 ストア。

結果をビッグ データ ファイル共有に書き込むときに、次の GeoAnalytics Tools の出力を使用できます。

  • ファイル共有
  • HDFS
  • クラウド ストレージの場所

ビッグ データ ファイル共有では、次のファイル タイプが入出力用のデータセットとしてサポートされています。

  • 区切りファイル (.csv.tsv、および .txt)
  • シェープファイル (.shp)
  • パーケット ファイル (.parquet)
    注意:

    暗号化されていないパーケット ファイルのみをサポートしています。

  • ORC ファイル (.orc)

ビッグ データ ファイル共有は、GeoAnalytics Tools からデータにアクセスできる方法の 1 つであり、GeoAnalytics Tools にとって必須ではありません。 GeoAnalytics Tools で可能なデータ入力および出力のリストについては、「Map Viewer Classic での GeoAnalytics Tools の使用」をご参照ください。

必要な数のビッグ データ ファイル共有を登録することができます。 各ビッグ データ ファイル共有は、必要な数のデータセットを含むことができます。 ビッグ データ ファイル共有を GeoAnalytics Server サイトに登録する手順については、「ビッグ データ ファイル共有の追加」をご参照ください。

下の表は、ビッグ データ ファイル共有について説明する場合のいくつかの重要な用語の概要を示しています。

用語説明

ビッグ データ ファイル共有

GeoAnalytics Tools に対するデータセットの入力、出力、または入力と出力の両方として使用される GeoAnalytics Server に登録された場所。

ビッグ データ カタログ サービス

ビッグ データ ファイル共有の入力データセット、スキーマ、および出力テンプレート名の概要を示すサービス。 このサービスは、ビッグ データ ファイル共有が登録され、マニフェストが作成されるときに作成されます。

ビッグ データ カタログ サービスの詳細については、ArcGIS Services REST API ヘルプの「ビッグ データ カタログ サービス」のドキュメントをご参照ください。

ビッグ データ ファイル共有アイテム

ビッグ データ カタログ サービスを参照するポータル内のアイテム。 このアイテムをポータル内で共有することによって、誰がビッグ データ ファイル共有を GeoAnalytics の入力として使用できるかを制御できます。

マニフェスト

ビッグ データ ファイル共有内の利用できるデータセットおよび入力のスキーマの概要を示す JSON ファイル。 マニフェストは、ビッグ データ ファイル共有を登録するときに自動的に生成され、ヒント ファイルを編集または使用することによって変更できます。 1 つのビッグ データ ファイル共有には 1 つのマニフェストがあります。

出力テンプレート

結果をビッグ データ ファイル共有に書き込むときのファイル タイプおよびオプションの書式設定の概要を示す 1 つ以上のテンプレート。 たとえば、テンプレートは、結果がシェープファイルに書き込まれることを指定できます。 ビッグ データ ファイル共有は、出力テンプレートを含まないこと、または 1 つ以上の出力テンプレートを含むことができます。

ビッグ データ ファイル共有タイプ

登録する場所のタイプ。 たとえば、ビッグ データ ファイル共有または HDFS タイプを登録できます。

ビッグ データ ファイル共有のデータセット形式

読み取るか、書き込むデータの形式。 たとえば、ファイル タイプをシェープファイルにすることができます。

ヒント ファイル

入力として使用される区切りファイルのマニフェストの生成を支援するために使用できるオプションのファイルです。

ビッグ データ ファイル共有として登録するデータの準備

ビッグ データ ファイル共有内のデータセットを入力として使用するには、データが正しく書式設定されていることを確認します。 ビッグ データ ファイル共有タイプに基づいて書式設定する方法については、下記をご参照ください。

ファイル共有と HDFS

ビッグ データ ファイル共有としてデータを準備するには、登録される 1 つの親フォルダー以下のサブフォルダーとしてデータセットを配置する必要があります。 登録するこの親フォルダー内で、サブフォルダーの名前はデータセット名を表します。 サブフォルダーに複数のフォルダーやファイルが含まれている場合、最上位のサブフォルダーのすべてのコンテンツが 1 つのデータセットとして読み込まれ、同じスキーマを共有する必要があります。 次の例は、EarthquakesHurricanesGlobalOceans という名前の 3 つのデータセットを含む FileShareFolder フォルダーの登録方法を示しています。 親フォルダーを登録すると、指定したフォルダーの下にあるすべてのサブディレクトリも GeoAnalytics Server に登録されます。 必ず、個別のデータセット フォルダーを 1 つ以上含む親フォルダー (例: \\machinename\FileShareFolder) を登録してください。

Earthquakes、Hurricanes、GlobalOceans という 3 つのデータセットが含まれているビッグ データ ファイル共有の例を以下に示します 。


|---FileShareFolder                 < -- The top-level folder is what is registered as a big data file share
   |---Earthquakes                  < -- A dataset "Earthquakes", composed of 4 csvs with the same schema
      |---1960
         |---01_1960.csv
         |---02_1960.csv
      |---1961
         |---01_1961.csv
         |---02_1961.csv
   |---Hurricanes                   < -- The dataset "Hurricanes", composed of 3 shapefiles with the same schema
      |---atlantic_hur.shp
      |---pacific_hur.shp
      |---otherhurricanes.shp
   |---GlobalOceans                 < -- The dataset "GlobalOceans", composed of a single shapefile
      |---oceans.shp

語が異なっていても、同じ構造がファイル共有と HDFS に適用されます。 ファイル共有では、最上位のフォルダーまたはディレクトリが存在し、データセットはサブディレクトリによって表現されます。 HDFS では、ファイル共有の場所が登録され、データセットを含んでいます。 次の表に、これらの違いの概要を示します。

ファイル共有HDFS

ビッグ データ ファイル共有の場所

フォルダーまたはディレクトリ

HDFS パス

データセット

最上位のサブフォルダー

HDFS パス内のデータセット

データが、データセットのサブフォルダーを含むフォルダーとして編成されたら、「データを ArcGIS Server でアクセス可能にする」の手順に従って、ポータルを通じてデータセット フォルダーまたは HDFS パスを登録して、GeoAnalytics Server がデータにアクセスできるようにします。

Hive

Hive では、データセット内のすべてのテーブルが、ビッグ データ ファイル共有のデータセットとして認識されます。 次の例では、defaultCityData という 2 つのデータベースを含むメタストアが存在します。 Hive ビッグ データ ファイル共有を登録するときは、1 つしかデータベースを選択できません。 この例では、CityData データベースが選択された場合、ビッグ データ ファイル共有に FireDataLandParcels という 2 つのデータセットが含まれることになります。


|---HiveMetastore                 < -- The top-level folder is what is registered as a big data file share
   |---default                    < -- A database
      |---Earthquakes
      |---Hurricanes
      |---GlobalOceans
   |---CityData				            < -- A database that is registered (specified in Server Manager)
      |---FireData
      |---LandParcels

クラウド ストレージ データ ストア

クラウド ストレージの場所にビッグ データ ファイル共有としてデータを準備するには、1 つの親フォルダー以下のサブフォルダーとしてデータセットを配置します。

データを構築する方法は次のようになります。 この例では、3 つのデータセット (EarthquakesHurricanes、および GlobalOceans) が含まれている親フォルダー (FileShareFolder) を登録します。 親フォルダーを登録すると、指定したフォルダーの下にあるすべてのサブディレクトリも GeoAnalytics Server に登録されます。

ビッグ データ ファイル共有として使用されるデータをクラウド ストレージの場所に構築する方法の例。 このビッグ データ ファイルには、Earthquakes、Hurricanes、および GlobalOceans という 3 つのデータセットが含まれています 。


|---Cloud Store                          < -- The cloud storage location being registered
   |---Container or S3 Bucket Name       < -- The container (Azure) or bucket (Amazon) being registered as part of the cloud storage data store
      |---FileShareFolder                < -- The parent folder that is registered as the 'folder' during cloud storage registration
         |---Earthquakes                 < -- The dataset "Earthquakes", composed of 4 csvs with the same schema
            |---1960
               |---01_1960.csv
               |---02_1960.csv
            |---1961
               |---01_1961.csv
               |---02_1961.csv
         |---Hurricanes                  < -- The dataset "Hurricanes", composed of 3 shapefiles with the same schema
            |---atlantic_hur.shp
            |---pacific_hur.shp
            |---otherhurricanes.shp
         |---GlobalOceans                < -- The dataset "GlobalOceans", composed of 1 shapefile
            |---oceans.shp

ポータルでのビッグ データ ファイル共有の管理

ビッグ データ ファイル共有を作成したら、中にあるデータセットと、ビッグ データ ファイル共有に保存される結果を書き込む方法の概要を示すテンプレートを確認できます。

ビッグ データ ファイル共有の変更

ビッグ データ ファイル共有アイテムを作成すると、入力データのマニフェストが自動的に生成およびアップロードされます。 マニフェストを生成するプロセスでは、ジオメトリおよび時間を表すフィールドを常に正しく推定できるとは限らないため、編集の適用が必要になる場合があります。 マニフェストとデータセットの表現方法を編集するには、「ビッグ データ ファイル共有の編集」の手順に従います。 ビッグ データ ファイル共有のマニフェストの詳細については、ArcGIS Server ヘルプの「ビッグ データ ファイル共有のマニフェスト」をご参照ください。

Server Manager を使用して ArcGIS Server にビッグ データ ファイル共有を作成した場合、「Server Manager でのビッグ データ ファイル共有のマニフェストの編集」の手順に従います。

ビッグ データ ファイル共有の出力テンプレートの変更

ビッグ データ ファイル共有を出力場所として使用する場合、出力テンプレートが自動的に生成されます。 これらのテンプレートは、ファイル タイプ、時間およびジオメトリの登録方法などの、出力解析結果の書式設定についての概要を示します。 ジオメトリまたは時間の書式設定を変更するか、テンプレートを追加または削除する場合は、テンプレートを変更できます。 出力テンプレートを編集するには、「出力テンプレートの作成、編集、表示」の手順に従います。 出力テンプレートの詳細については、「ビッグ データ ファイル共有での出力テンプレート」をご参照ください。

Server Manager を使用して ArcGIS Server にビッグ データ ファイル共有を作成した場合、「Server Manager でのビッグ データ ファイル共有のマニフェストの編集」の手順に従います。

Server Manager で作成したビッグ データ ファイル共有のポータルへの移行

ポータルを使用して作成されたビッグ データ ファイル共有には、Server Manager で作成されたビッグ データ ファイル共有より、次のような多くの利点があります。

  • 操作性が向上し、データセットの編集が簡単です。
  • ビッグ データ ファイル共有の登録が簡略化されます。
  • アイテムの格納と共有にポータルの認証情報が使用されます。

Server Manager で作成したビッグ データ ファイル共有のデータ ストア アイテムを作成することをお勧めします。 これは必須の場合もあります。 次の場合、ビッグ データ ファイル共有を使用し続けるには、ポータルのデータ ストア アイテムに移行する必要があります。

  • Microsoft Azure Data Lake Storage Gen1 クラウド ストレージ データ ストアに基づくビッグ データ ファイル共有。

Server Manager で作成されたビッグ データ ファイル共有をポータルのデータ ストア アイテムに移行するには、以下を用意します。

  • 構成済みビッグ データ ファイル共有の認証情報とファイルの場所。
  • 構成済みのクラウド ストレージ データ ストアの認証情報とファイルの場所 (該当する場合)。
認証情報を確認できたら、次の手順を実行します。

  1. GeoAnalytics Server サイトで Server Manager にサイン インします。
  2. [サイト] > [データ ストア] の順に選択します。 移行するビッグ データ ファイル共有の編集ボタンをクリックします。
  3. [高度な設定] > [マニフェスト] の順に選択します。 [ダウンロード] ボタンをクリックして、マニフェストを保存します。
  4. ヒントがある場合は、ヒントに対して同じ手順を実行します。 [ヒント][ダウンロード] の順にクリックして、ヒント ファイルを保存します。 ファイルの拡張子を .dat から .txt.txt に変更します。
  5. [高度な設定][出力テンプレート] セクションに出力テンプレートがある場合は、テキストをコピーしてテキスト ファイルに保存します。
  6. これまで使用したのと同じタイプと入力場所を使用して、ビッグ データ ファイル共有をポータルのコンテンツ ページに作成します。

    認証情報がわからない場合は、管理者が Server Administrator でビッグ データ ファイル共有アイテムとクラウド ストレージ データ ストア アイテムの decrypt=true オプションを使用して見つけることができます。

    データ ストア アイテムの追加」の手順に従って、既存のビッグ データ ファイル共有と同じ認証情報と場所を使用します。

  7. ビッグ データ ファイル共有が作成されたら、[データセット] をクリックして、[高度な設定を表示] オプションをオンにします。
  8. マニフェスト セクションにある [アップロード] をクリックして、これまでに保存したマニフェストをアップロードします。 先ほど保存したマニフェストの JSON ファイルを参照して、[アップロード] をクリックします。 [同期] ボタンをクリックして、変更内容を反映させます。
  9. アップロードするヒント ファイルがある場合は、同じ手順を実行して、[高度な設定を表示] > [ヒント] > [アップロード] オプションでヒント ファイルをアップロードします。 [同期] ボタンをクリックして、変更内容を反映させます。
  10. 出力テンプレートをアップロードするには、次のいずれかを実行します。

ビッグ データ ファイル共有とビッグ データ ファイル共有アイテムのマニフェストをポータルに作成しました。 ワークフローを更新して、このビッグ データ ファイル共有を使用およびポイントすることができます。 これが期待どおりに機能するとわかったら、Server Manager で元のビッグ データ ファイル共有を削除します。

ビッグ データ ファイル共有に対する解析の実行

ビッグ データ ファイル共有内のデータセットに対して解析を実行するには、GeoAnalytics Server をサポートし、次のいずれかのコンポーネントを備えた任意のクライアントを使用します。

  • ArcGIS Pro
  • Map Viewer Classic
  • ArcGIS REST API
  • ArcGIS API for Python

ArcGIS Pro または Map Viewer Classic を使用してビッグ データ ファイル共有に対する解析を実行するには、使用する GeoAnalytics Tools を選択します。 ツールに対する入力として、ArcGIS Pro[ポータル] または Map Viewer Classic[レイヤーの参照] ダイアログ ボックスで、データが存在する場所を参照して選択します。 データを自分自身で登録した場合、データは [マイ コンテンツ] にあります。 それ以外の場合は、[グループ] または [すべてのポータル] を調べてみます。 解析用に選択されたビッグ データ ファイル共有レイヤーはマップに表示されない点に注意してください。

注意:

必ず、登録されたビッグ データ ファイル共有へのアクセス権を持つポータル アカウントを使用してサイン インするようにしてください。 検索語に「bigDataFileShare*」を使用してポータルを検索すると、アクセス可能なビッグ データ ファイル共有をすばやく見つけることができます。

ArcGIS REST API を使用してビッグ データ ファイル共有に対する解析を実行するには、入力としてビッグ データ カタログ サービスの URL を使用します。 ビッグ データ ファイル共有をポータルで作成した場合、これは {"url":" https://webadaptorhost.domain.com/webadaptorname/rest/DataStoreCatalogs/bigDataFileShares_filesharename/"} という形式になります。 たとえば、コンピューター名が example、ドメイン名が esri、ArcGIS Web Adaptor 名が server、ビッグ データ ファイル共有名が MyData、データセット名が Earthquakes の場合、URL は {"url":" https://example.esri.com/server/rest/DataStoreCatalogs/bigDataFileShares_MyData/Earthquakes_uniqueID"} になります。 ビッグ データ ファイル共有を Server Manager で作成した場合、これは {"url":"https://webadaptorhost.domain.com/webadaptorname/rest/DataStoreCatalogs/bigDataFileShares_filesharename/BigDataCatalogServer/dataset"} という形式になります。

REST を介したビッグ データ解析への入力の詳細については、ArcGIS Services REST API のドキュメントにある「フィーチャ入力」のトピックをご参照ください。

ビッグ データ ファイル共有への結果の保存

データセット (ビッグ データ ファイル共有またはその他の入力) に対して解析を実行し、その結果をビッグ データ ファイル共有に保存することができます。 これは、次のクライアントを使用して実行できます。

  • Map Viewer Classic
  • ArcGIS REST API
  • ArcGIS API for Python

結果をビッグ データ ファイル共有に書き込むと、入力マニフェストが、保存したデータセットを含むように更新されます。 これで、ビッグ データ ファイル共有に書き込んだ結果が、別のツールを実行するための入力として利用できるようになりました。 結果をビッグ データ ファイル共有に保存すると、それらを視覚化できなくなります。