ビッグデータファイル共有の基本操作—ArcGIS GeoAnalytics Server

注意:

10.9.1 以降、ビッグデータファイル共有の登録は、ポータルのコンテンツページで行うことができます。ビッグデータファイル共有を登録するときは、この方法をお勧めします。次の場合、登録と編集には Server Manager を使用します。

Azure Data Lake を登録したい場合
10.9.1 より前にビッグデータファイル共有が作成され、ポータルのビッグデータファイル共有に置き換えていない場合。

ビッグデータファイル共有は、ポータルに作成されるアイテムであり、ArcGIS GeoAnalytics Server が利用できる場所を参照します。ビッグデータファイル共有の場所は、GeoAnalytics ツールのフィーチャデータ (ポイント、ポリライン、ポリゴン、およびテーブルデータ) の入力および出力として使用できます。ビッグデータファイル共有をポータルのコンテンツページで作成する場合、少なくとも 2 つのアイテムがポータル内に作成されます。

データストア (ビッグデータファイル共有) アイテム
ビッグデータファイル共有アイテム
データストア (クラウドストア) アイテム (ビッグデータファイル共有にクラウドストアを登録している場合)

ビッグデータファイル共有アイテムはビッグデータカタログサービスを指し、このサービスは、ジオメトリおよび時間の情報を含むビッグデータファイル共有内のデータセットおよびそれらのスキーマ、ならびに登録したテンプレートと呼ばれる出力形式の概要を示します。ビッグデータファイル共有を ArcGIS GeoAnalytics Server ツールの入力に使用する場合、ビッグデータファイル共有アイテムを参照して、データセットに対して解析を実行できます。

ビッグデータファイル共有について

ビッグデータファイル共有を使用することには、いくつかの利点があります。

解析を実行する準備ができるまで、アクセス可能な場所にデータを保存しておくことができます。ビッグデータファイル共有では、解析が実行されたときにデータにアクセスします。このため、データを再登録または公開する必要なく、データをビッグデータファイル共有内の既存のデータセットに継続して追加できます。
マニフェストを変更して、ビッグデータファイル共有内のデータセットを削除、追加、または更新することもできます。
ビッグデータファイル共有は、時間とジオメトリの定義方法に関して極めて柔軟であり、1 つのデータセットを対象とする複数の時間形式に対応できます。
また、ビッグデータファイル共有では、データセットのパーティション化が可能であると同時に、複数のパーティションを 1 つのデータセットとして処理できます。
ビッグデータファイル共有を出力データに使用すると、他のワークフローに使用できる形式 (さらに解析するか、格納するための Parquet ファイルなど) で結果を格納できます。

注意:

ビッグデータファイル共有は、GeoAnalytics ツールを実行した場合にのみアクセスできます。つまり、ビッグデータファイルを参照して解析に追加することだけが可能であり、そのデータをマップ上で視覚化することはできません。

ビッグデータファイル共有は、次の入力データソースを参照できます。

ファイル共有 - ローカルディスクまたはネットワーク共有上のデータセットのディレクトリ。
Apache Hadoop Distributed File System (HDFS) - データセットの HDFS のディレクトリ。
Apache Hive - Hive メタストアデータベース。
クラウドストア - データセットのディレクトリを含んでいる Amazon Simple Storage Service (S3) バケット、Microsoft Azure BLOB コンテナー、または Microsoft Azure Data Lake (Server Manager のみ) ストア。

結果をビッグデータファイル共有に書き込むときに、次の GeoAnalytics ツールの出力を使用できます。

ファイル共有
HDFS
クラウドストア

ビッグデータファイル共有では、次のファイルタイプが入出力用のデータセットとしてサポートされています。

区切りファイル (*.csv、*.tsv、および *.txt)
シェープファイル (*.shp)
パーケットファイル (*.parquet)
注意:
暗号化されていないパーケットファイルのみをサポートしています。
ORC ファイル (*.orc)

注意:

ビッグデータファイル共有は、ポータル管理者が GeoAnalytics Server を有効化している場合にのみ使用できます。 GeoAnalytics Server の有効化の詳細については、「ArcGIS GeoAnalytics Server の設定」をご参照ください。

ビッグデータファイル共有は、GeoAnalytics ツールからデータにアクセスできる方法の 1 つであり、GeoAnalytics ツールにとって必須ではありません。 GeoAnalytics ツールで可能なデータ入力および出力のリストについては、「Map Viewer Classic での GeoAnalytics ツールの使用」をご参照ください。

必要な数のビッグデータファイル共有を登録することができます。各ビッグデータファイル共有は、必要な数のデータセットを含むことができます。

下の表は、ビッグデータファイル共有について説明する場合のいくつかの重要な用語の概要を示しています。


用語	説明
ビッグデータファイル共有	GeoAnalytics ツールに対するデータセットの入力、出力、または入力と出力の両方として使用される GeoAnalytics Server に登録された場所。
ビッグデータカタログサービス	ビッグデータファイル共有の入力データセット、スキーマ、および出力テンプレート名の概要を示すサービス。このサービスは、ビッグデータファイル共有が登録され、マニフェストが作成されるときに作成されます。ビッグデータカタログサービスの詳細については、ArcGIS Services REST API ヘルプの「ビッグデータカタログサービス」のドキュメントをご参照ください。
ビッグデータファイル共有アイテム	ビッグデータカタログサービスを参照するポータル内のアイテム。このアイテムをポータル内で共有することによって、誰がビッグデータファイル共有を GeoAnalytics の入力として使用できるかを制御できます。
マニフェスト	ビッグデータファイル共有内の利用できるデータセットおよび入力のスキーマの概要を示す JSON ファイル。マニフェストは、ビッグデータファイル共有を登録するときに自動的に生成され、ヒントファイルを編集または使用することによって変更できます。 1 つのビッグデータファイル共有には 1 つのマニフェストがあります。
出力テンプレート	結果をビッグデータファイル共有に書き込むときのファイルタイプおよびオプションの書式設定の概要を示す 1 つ以上のテンプレート。たとえば、テンプレートは、結果がシェープファイルに書き込まれることを指定できます。ビッグデータファイル共有は、出力テンプレートを含まないこと、または 1 つ以上の出力テンプレートを含むことができます。
ビッグデータファイル共有タイプ	登録する場所のタイプ。たとえば、ビッグデータファイル共有または HDFS タイプを登録できます。
ビッグデータファイル共有のデータセット形式	読み取るか、書き込むデータの形式。たとえば、ファイルタイプをシェープファイルにすることができます。
ヒントファイル	入力として使用される区切りファイルのマニフェストの生成を支援するために使用できるオプションのファイルです。

ビッグデータファイル共有として登録するデータの準備

ビッグデータファイル共有内のデータセットを入力として使用するには、データが正しく書式設定されていることを確認する必要があります。ビッグデータファイル共有タイプに基づいて書式設定する方法については、下記をご参照ください。

ファイル共有と HDFS

ビッグデータファイル共有としてデータを準備するには、登録される 1 つの親フォルダー以下のサブフォルダーとしてデータセットを配置する必要があります。登録するこの親フォルダー内で、サブフォルダーの名前はデータセット名を表します。サブフォルダーに複数のフォルダーやファイルが含まれている場合、最上位のサブフォルダーのすべてのコンテンツが 1 つのデータセットとして読み込まれ、同じスキーマを共有する必要があります。次の例は、Earthquakes、Hurricanes、GlobalOceans という名前の 3 つのデータセットを含む FileShareFolder フォルダーの登録方法を示しています。親フォルダーを登録すると、指定したフォルダーの下にあるすべてのサブディレクトリも GeoAnalytics Server に登録されます。必ず、個別のデータセットフォルダーを 1 つ以上含む親フォルダー (例: \\machinename\FileShareFolder) を登録してください。

Earthquakes、Hurricanes、GlobalOceans という 3 つのデータセットが含まれているビッグデータファイル共有の例を以下に示します。

|---FileShareFolder                 < -- The top-level folder is what is registered as a big data file share
   |---Earthquakes                  < -- A dataset "Earthquakes", composed of 4 csvs with the same schema
      |---1960
         |---01_1960.csv
         |---02_1960.csv
      |---1961
         |---01_1961.csv
         |---02_1961.csv
   |---Hurricanes                   < -- The dataset "Hurricanes", composed of 3 shapefiles with the same schema
      |---atlantic_hur.shp
      |---pacific_hur.shp
      |---otherhurricanes.shp
   |---GlobalOceans                 < -- The dataset "GlobalOceans", composed of a single shapefile
      |---oceans.shp

語が異なっていても、同じ構造がファイル共有と HDFS に適用されます。ファイル共有では、最上位のフォルダーまたはディレクトリが存在し、データセットはサブディレクトリによって表現されます。 HDFS では、ファイル共有の場所が登録され、データセットを含んでいます。次の表に、これらの違いの概要を示します。


	ファイル共有	HDFS
ビッグデータファイル共有の場所	フォルダーまたはディレクトリ	HDFS パス
データセット	最上位のサブフォルダー	HDFS パス内のデータセット

データが、データセットのサブフォルダーを含むフォルダーとして編成されたら、「データを ArcGIS Server でアクセス可能にする」の手順に従って、データセットフォルダーを登録して、GeoAnalytics Server がデータにアクセスできるようにします。

Kerberos を使用した HDFS へのアクセス

GeoAnalytics Server は、Kerberos 認証を使用して HDFS にアクセスできます。

Kerberos 認証を使用して HDFS ファイル共有を登録するには、次の手順に従います。

Windows では、krb.ini ファイルを GeoAnalytics Server サイト内のすべてのコンピューター上の C:/windows/krb.ini にコピーします。 Linux では、krb.conf ファイルを GeoAnalytics Server サイト内のすべてのコンピューター上の /etc/krb.conf にコピーします。
ArcGIS Server Administrator Directory から GeoAnalytics Server サイトにサインインします。
ArcGIS Server Administrator Directory では、管理者としてサインインする必要があります。フェデレートされた GeoAnalytics Server サイトに接続するには、ポータルトークン (ポータル管理者の認証情報が必要) を使用してサインインするか、GeoAnalytics Server サイトのプライマリサイト管理としてサインインする必要があります。ポータル管理者ではなく、プライマリサイト管理者のアカウント情報にもアクセスできない場合は、ポータル管理者に連絡して、これらの手順を実行してもらってください。
[data] > [registerItem] に移動します。
次のテキストをコピーして、[Item] テキストボックスに貼り付けます。次の値を更新します。
- <bigDataFileShareName> - ビッグデータファイル共有にする名前に置換します。
- <hdfs path> - ビッグデータファイル共有の完全修飾ファイルシステムパスに置換します (例: hdfs://domainname:port/folder)。
- <user@realm> - プリンシパルのユーザーおよびレルムに置換します。
- <keytab location> - keytab ファイルの場所に置換します。 keytab ファイルには GeoAnalytics Server サイト内のすべてのコンピューターがアクセスできる必要があります (例: //shared/keytab/hadoop.keytab)。
```
{
   "path": "/bigDataFileShares/<bigDataFileShareName>",
   "type": "bigDataFileShare",
   "info": 
         {
          "connectionString": "{\"path\":\"<hdfs path>",\"accessMode\":\"Kerberos\",\"principal\":\"user@realm\",\"keytab\":\"<keytab location>\"}",
          "connectionType": "hdfs"
         }
}
  
```
[アイテムの登録] をクリックします。
アイテムが登録されると、ビッグデータファイル共有がデータストアとして、入力されたマニフェストとともに ArcGIS Server Manager に表示されます。マニフェストに値が入力されていない場合、手順 6 に進みます。
ArcGIS Server Manager から GeoAnalytics Server サイトにサインインします。
公開者または管理者としてサインインできます。
[サイト] > [データストア] に移動して、新しいビッグデータファイル共有の横の [マニフェストの再生成] ボタンをクリックします。

これで HDFS にビッグデータファイル共有とマニフェストが設定され、Kerberos 認証を使用してアクセスできるようになりました。ポータルのビッグデータファイル共有アイテムは、GeoAnalytics Server のビッグデータカタログサービスをポイントします。

Hive

注意:

GeoAnalytics Server は Spark 3.0.1 を使用します。Hive はバージョン 2.3.7 または 3.0.0 ～ 3.1.2 である必要があります。

不適切なバージョンの Hive とのビッグデータファイル共有を登録しようとしても、登録が失敗します。その場合は、ArcGIS Server Administrator Directory で [services] > [System] > [GeoAnalyticsManagement] > [stop] をクリックして、GeoAnalyticsManagement ツールボックスを再起動します。開始手順を繰り返します。

Hive では、データセット内のすべてのテーブルが、ビッグデータファイル共有のデータセットとして認識されます。次の例では、default と CityData という 2 つのデータベースを含むメタストアが存在します。 GeoAnalytics Server を使用し、ArcGIS Server を介して Hive ビッグデータファイル共有を登録するときは、1 つしかデータベースを選択できません。この例では、CityData データベースが選択された場合、ビッグデータファイル共有に FireData と LandParcels という 2 つのデータセットが含まれることになります。

|---HiveMetastore                 < -- The top-level folder is what is registered as a big data file share
   |---default                    < -- A database
      |---Earthquakes
      |---Hurricanes
      |---GlobalOceans
   |---CityData				               < -- A database that is registered (specified in Server Manager)
      |---FireData
      |---LandParcels

クラウドストア

クラウドストアタイプのビッグデータファイル共有を登録する手順は 3 つあります。

正しい形式で、クラウドストア内でデータを準備する。
クラウドストアを GeoAnalytics Server に登録する。
クラウドストアをビッグデータファイル共有として GeoAnalytics Server に登録する。

データの準備

クラウドストア内のビッグデータファイル共有としてデータを準備するには、1 つの親フォルダー以下のサブフォルダーとしてデータセットを配置します。

データを構築する方法は次のようになります。この例では、3 つのデータセット (Earthquakes、Hurricanes、および GlobalOceans) が含まれている親フォルダー (FileShareFolder) を登録します。親フォルダーを登録すると、指定したフォルダーの下にあるすべてのサブディレクトリも GeoAnalytics Server に登録されます。

ビッグデータファイル共有として使用されるクラウドストアにデータを構築する方法の例。このビッグデータファイルには、Earthquakes、Hurricanes、および GlobalOceans という 3 つのデータセットが含まれています。

|---Cloud Store                          < -- The cloud store being registered
   |---Container or S3 Bucket Name       < -- The container (Azure) or bucket (Amazon) being registered as part of the cloud store
      |---FileShareFolder                < -- The parent folder that is registered as the 'folder' during cloud store registration
         |---Earthquakes                 < -- The dataset "Earthquakes", composed of 4 csvs with the same schema
            |---1960
               |---01_1960.csv
               |---02_1960.csv
            |---1961
               |---01_1961.csv
               |---02_1961.csv
         |---Hurricanes                  < -- The dataset "Hurricanes", composed of 3 shapefiles with the same schema
            |---atlantic_hur.shp
            |---pacific_hur.shp
            |---otherhurricanes.shp
         |---GlobalOceans                < -- The dataset "GlobalOceans", composed of 1 shapefile
            |---oceans.shp

クラウドストアを GeoAnalytics Server に登録する

ArcGIS Server Manager から GeoAnalytics Server サイトに接続して、クラウドストアを登録します。クラウドストアを登録する場合、Azure コンテナー名、Amazon S3 バケット名、または Azure Data Lake Store アカウント名を含める必要があります。さらに、コンテナーまたはバケット内のフォルダーを指定することをお勧めします。指定したフォルダーはサブフォルダーで構成され、それぞれ個別のデータセットを表します。各データセットは、サブフォルダーのすべてのコンテンツで構成されます。

クラウドストアをビッグデータファイル共有として登録する

以下の手順に従って、前のセクションで作成したクラウドストアをビッグデータファイル共有として登録します。

ArcGIS Server Manager から GeoAnalytics Server サイトにサインインします。
公開者または管理者としてサインインできます。
[サイト] > [データストア] に移動し、[登録] ドロップダウンリストから [ビッグデータファイル共有] を選択します。
[ビッグデータファイル共有の登録] ダイアログボックスで、次の情報を入力します。
1. ビッグデータファイル共有の名前を入力します。
2. [タイプ] ドロップダウンリストから [クラウドストア] を選択します。
3. [クラウドストア] ドロップダウンリストからクラウドストアの名前を選択します。
4. [作成] をクリックして、クラウドストアをビッグデータファイル共有として登録します。

これで、クラウドストア用のビッグデータファイル共有およびマニフェストが作成されました。ポータルのビッグデータファイル共有アイテムは、GeoAnalytics Server のビッグデータカタログサービスをポイントします。

ビッグデータファイル共有の登録

ファイル共有、HDFS、または Hive クラウドストアをビッグデータファイル共有として登録するには、ArcGIS Server Manager を使用して GeoAnalytics Server サイトに接続します。必要な手順の詳細については、ArcGIS Server ヘルプの「ArcGIS Server Manager を使用したデータの ArcGIS Server への登録」をご参照ください。

ヒント:

クラウドストアをビッグデータファイル共有として登録する手順は、前のセクションで説明されています。

ビッグデータファイル共有が登録されると、ジオメトリと時間を表すフィールドを含め、共有場所にあるデータセットの形式について概略を示すマニフェストが生成されます。必要に応じて、ビッグデータファイル共有を出力場所として登録する場合、出力テンプレートのマニフェストも生成されます。ビッグデータファイル共有アイテムはポータルに作成され、データを登録した GeoAnalytics Server のビッグデータカタログサービスをポイントします。ビッグデータカタログサービスの詳細については、ArcGIS Services REST API ヘルプの「ビッグデータカタログサービス」のドキュメントをご参照ください。

ビッグデータファイル共有の変更

ビッグデータカタログサービスが作成されると、入力データのマニフェストが自動的に生成され、データを登録した GeoAnalytics Server サイトにアップロードされます。マニフェストを生成するプロセスでは、ジオメトリおよび時間を表すフィールドを常に正しく推定できるとは限らないため、編集の適用が必要になる場合があります。マニフェストを編集するには、「Server Manager でのビッグデータファイル共有のマニフェストの編集」の手順に従います。ビッグデータファイル共有のマニフェストの詳細については、ArcGIS Server ヘルプの「ビッグデータファイル共有のマニフェストについて」をご参照ください。

ビッグデータファイル共有の出力テンプレートの変更

ビッグデータファイル共有を出力場所として使用する場合、出力テンプレートが自動的に生成されます。これらのテンプレートは、ファイルタイプ、時間およびジオメトリの登録方法などの、出力解析結果の書式設定についての概要を示します。ジオメトリまたは時間の書式設定を変更するか、テンプレートを追加または削除する場合は、テンプレートを変更できます。出力テンプレートを編集するには、「Server Manager でのビッグデータファイル共有のマニフェストの編集」の手順に従います。出力テンプレートの詳細については、「ビッグデータファイル共有での出力テンプレート」をご参照ください。

ビッグデータファイル共有に対する解析の実行

ビッグデータファイル共有内のデータセットに対して解析を実行するには、GeoAnalytics Server をサポートし、次のいずれかのコンポーネントを備えた任意のクライアントを使用します。

ArcGIS Pro
Map Viewer Classic
ArcGIS REST API
ArcGIS API for Python

ArcGIS Pro または Map Viewer Classic を使用してビッグデータファイル共有に対する解析を実行するには、使用する GeoAnalytics ツールを選択します。ツールに対する入力として、ArcGIS Pro の [ポータル] または Map Viewer Classic の [レイヤーの参照] ダイアログボックスで、データが存在する場所を参照して選択します。データを自分自身で登録した場合、データは [マイコンテンツ] にあります。それ以外の場合は、[グループ] または [すべてのポータル] を調べてみます。解析用に選択されたビッグデータファイル共有レイヤーはマップに表示されない点に注意してください。

注意:

必ず、登録されたビッグデータファイル共有へのアクセス権を持つポータルアカウントを使用してサインインするようにしてください。検索語に「bigDataFileShare*」を使用してポータルを検索すると、アクセス可能なビッグデータファイル共有をすばやく見つけることができます。

ArcGIS REST API を使用してビッグデータファイル共有に対する解析を実行するには、入力としてビッグデータカタログサービスの URL を使用します。この URL の形式は {"url":" https://webadaptorhost.domain.com/webadaptorname/rest/DataStoreCatalogs/bigDataFileShares_filesharename/BigDataCatalogServer/dataset"} になります。たとえば、コンピューター名が example、ドメイン名が esri、ArcGIS Web Adaptor 名が server、ビッグデータファイル共有名が MyData、データセット名が Earthquakes の場合、URL は {"url":" https://example.esri.com/server/rest/DataStoreCatalogs/bigDataFileShares_MyData/BigDataCatalogServer/Earthquakes"} になります。 REST を介したビッグデータ解析への入力の詳細については、ArcGIS Services REST API のドキュメントにある「フィーチャ入力」のトピックをご参照ください。

ビッグデータファイル共有への結果の保存

データセット (ビッグデータファイル共有またはその他の入力) に対して解析を実行し、その結果をビッグデータファイル共有に保存することができます。結果をビッグデータファイル共有に保存すると、それらを視覚化できなくなります。これは、次のクライアントを使用して実行できます。

Map Viewer Classic
ArcGIS REST API
ArcGIS API for Python

結果をビッグデータファイル共有に書き込むと、入力マニフェストが、保存したデータセットを含むように更新されます。これで、ビッグデータファイル共有に書き込んだ結果が、別のツールを実行するための入力として利用できるようになりました。

このトピックへのフィードバック

注意:

ビッグ データ ファイル共有について

注意:

注意:

注意:

ビッグ データ ファイル共有として登録するデータの準備

ファイル共有と HDFS

Kerberos を使用した HDFS へのアクセス

Hive

注意:

クラウド ストア

データの準備

クラウド ストアを GeoAnalytics Server に登録する

クラウド ストアをビッグ データ ファイル共有として登録する

ビッグ データ ファイル共有の登録

ヒント:

ビッグ データ ファイル共有の変更

ビッグ データ ファイル共有の出力テンプレートの変更

ビッグ データ ファイル共有に対する解析の実行

注意:

ビッグ データ ファイル共有への結果の保存

このトピックの内容