ビッグ データ ファイル共有について
ビッグ データ ファイル共有は、ポータルに作成されるアイテムであり、ArcGIS GeoAnalytics Server が利用できる場所を参照します。ビッグ データ ファイル共有の場所は、GeoAnalytics ツールのフィーチャ データ (ポイント、ポリライン、ポリゴン、およびテーブル データ) の入力および出力として使用できます。ビッグ データ ファイル共有を作成する場合、アイテムがポータル内に作成されます。このアイテムはビッグ データ カタログ サービスを指し、このサービスは、ジオメトリおよび時間の情報を含むビッグ データ ファイル共有内のデータセットおよびそれらのスキーマ、ならびに登録したテンプレートと呼ばれる出力形式の概要を示します。ビッグ データ ファイル共有を ArcGIS GeoAnalytics Server ツールの入力に使用する場合、アイテムを参照して、データセットに対して解析を実行できます。
ビッグ データ ファイル共有を使用することには、いくつかの利点があります。解析を実行する準備ができるまで、アクセス可能な場所にデータを保存しておくことができます。ビッグ データ ファイル共有では、解析が実行されたときにデータにアクセスします。このため、データを再登録または公開する必要なく、データをビッグ データ ファイル共有内の既存のデータセットに継続して追加できます。マニフェストを変更して、ビッグ データ ファイル共有内のデータセットを削除、追加、または更新することもできます。ビッグ データ ファイル共有は、時間とジオメトリの定義方法に関して極めて柔軟であり、1 つのデータセットを対象とする複数の時間形式に対応できます。また、ビッグ データ ファイル共有では、データセットのパーティション化が可能であると同時に、複数のパーティションを 1 つのデータセットとして処理できます。ビッグ データ ファイル共有を出力データに使用すると、他のワークフローに使用できる形式 (さらに解析するか、格納するための Parquet ファイルなど) で結果を格納できます。
備考:
ビッグ データ ファイル共有は、GeoAnalytics ツール を実行した場合にのみアクセスできます。つまり、ビッグ データ ファイルを参照して解析に追加することだけが可能であり、そのデータをマップ上で視覚化することはできません。
ビッグ データ ファイル共有は、次の入力データ ソースを参照できます。
- ファイル共有 - ローカル ディスクまたはネットワーク共有上のデータセットのディレクトリ。
- Apache Hadoop Distributed File System (HDFS) - データセットの HDFS のディレクトリ。
- Apache Hive - Hive メタストア データベース。
- クラウド ストア - ディレクトリまたはデータセットを含んでいる Amazon Simple Storage Service (S3) バケット、Microsoft Azure BLOB コンテナー、または Microsoft Azure Data Lake ストア。
結果をビッグ データ ファイル共有に書き込むときに、次の GeoAnalytics ツール の出力を使用できます。
- ファイル共有
- HDFS
- クラウド ストア
備考:
Microsoft Azure BLOB コンテナーは、出力オプションとしてサポートされていません。
ビッグ データ ファイル共有では、次のファイル タイプが入出力用のデータセットとしてサポートされています。
- 区切りファイル (*.csv、*.tsv、および *.txt)
- シェープファイル (*.shp)
- パーケット ファイル (*.gz.parquet)
- ORC ファイル (*orc.crc)
備考:
ビッグ データ ファイル共有は、ポータル管理者が GeoAnalytics Server を有効化している場合にのみ使用できます。GeoAnalytics Server の有効化に関する詳細については、「ArcGIS GeoAnalytics Server の設定」をご参照ください。
ビッグ データ ファイル共有は、GeoAnalytics ツール からデータにアクセスできる方法の 1 つであり、GeoAnalytics ツール にとって必須ではありません。可能な GeoAnalytics ツール のデータ入力およびデータ出力のリストについては、「Map Viewer での GeoAnalytics ツール の使用」をご参照ください。
必要な数のビッグ データ ファイル共有を登録することができます。各ビッグ データ ファイル共有は、必要な数のデータセットを含むことができます。
下の表は、ビッグ データ ファイル共有について説明する場合のいくつかの重要な用語の概要を示しています。
用語 | 説明 |
---|---|
ビッグ データ ファイル共有 | GeoAnalytics ツールに対するデータセットの入力、出力、または入力と出力の両方として使用される GeoAnalytics Server に登録された場所。 |
ビッグ データ カタログ サービス | ビッグ データ ファイル共有の入力データセット、スキーマ、および出力テンプレート名の概要を示すサービス。このサービスは、ビッグ データ ファイル共有が登録され、マニフェストが作成されるときに作成されます。 ビッグ データ カタログ サービスの詳細については、ArcGIS Services REST API ヘルプの「ビッグ データ カタログ サービス」のドキュメントをご参照ください。 |
ビッグ データ ファイル共有アイテム | ビッグ データ カタログ サービスを参照するポータル内のアイテム。このアイテムをポータル内で共有することによって、誰がビッグ データ ファイル共有を GeoAnalytics の入力として使用できるかを制御できます。 |
マニフェスト | ビッグ データ ファイル共有内の利用できるデータセットおよび入力のスキーマの概要を示す JSON ファイル。マニフェストは、ビッグ データ ファイル共有を登録するときに自動的に生成され、ヒント ファイルを編集または使用することによって変更できます。1 つのビッグ データ ファイル共有には 1 つのマニフェストがあります。 |
出力テンプレート | 結果をビッグ データ ファイル共有に書き込むときのファイル タイプおよびオプションの書式設定の概要を示す 1 つ以上のテンプレート。たとえば、テンプレートは、結果がシェープファイルに書き込まれることを指定できます。ビッグ データ ファイル共有は、出力テンプレートを含まないこと、または 1 つ以上の出力テンプレートを含むことができます。 |
ビッグ データ ファイル共有タイプ | 登録する場所のタイプ。たとえば、ビッグ データ ファイル共有または HDFS タイプを登録できます。 |
ビッグ データ ファイル共有のデータセット形式 | 読み取るか、書き込むデータの形式。たとえば、ファイル タイプをシェープファイルにすることができます。 |
ヒント ファイル | 入力として使用される区切りファイルのマニフェストの生成を支援するために使用できるオプションのファイルです。 |
ビッグ データ ファイル共有として登録するデータの準備
ビッグ データ ファイル共有内のデータセットを入力として使用するには、データが正しく書式設定されていることを確認する必要があります。ビッグ データ ファイル共有タイプに基づいて書式設定する方法については、下記をご参照ください。
ファイル共有と HDFS
ビッグ データ ファイル共有としてデータを準備するには、登録される 1 つの親フォルダー以下のサブフォルダーとしてデータセットを配置する必要があります。登録するこの親フォルダー内で、サブフォルダーの名前はデータセット名を表します。サブフォルダーに複数のフォルダーやファイルが含まれている場合、最上位のサブフォルダーのすべてのコンテンツが 1 つのデータセットとして読み込まれ、同じスキーマを共有する必要があります。次の例は、FileShareFolder、Earthquakes、Hurricanes という名前の 3 つのデータセットを含む GlobalOceans フォルダーの登録方法を示しています。親フォルダーを登録すると、指定したフォルダーの下にあるすべてのサブディレクトリも GeoAnalytics Server に登録されます。必ず、個別のデータセット フォルダーを 1 つ以上含む親フォルダー (例: \\machinename\FileShareFolder) を登録してください。
Earthquakes、Hurricanes、GlobalOceans という 3 つのデータセットが含まれているビッグ データ ファイル共有の例を以下に示します 。
|---FileShareFolder < -- The top-level folder is what is registered as a big data file share
|---Earthquakes < -- A dataset "Earthquakes", composed of 4 csvs with the same schema
|---1960
|---01_1960.csv
|---02_1960.csv
|---1961
|---01_1961.csv
|---02_1961.csv
|---Hurricanes < -- The dataset "Hurricanes", composed of 3 shapefiles with the same schema
|---atlantic_hur.shp
|---pacific_hur.shp
|---otherhurricanes.shp
|---GlobalOceans < -- The dataset "GlobalOceans", composed of a single shapefile
|---oceans.shp
語が異なっていても、同じ構造がファイル共有と HDFS に適用されます。ファイル共有では、最上位のフォルダーまたはディレクトリが存在し、データセットはサブディレクトリによって表現されます。HDFS では、ファイル共有の場所が登録され、データセットを含んでいます。次の表に、これらの違いの概要を示します。
ファイル共有 | HDFS | |
---|---|---|
ビッグ データ ファイル共有の場所 | フォルダーまたはディレクトリ | HDFS パス |
データセット | 最上位のサブフォルダー | HDFS パス内のデータセット |
データが、データセットのサブフォルダーを含むフォルダーとして編成されたら、「データを GeoAnalytics Server でアクセス可能にする」の手順に従って、データセット フォルダーを登録して、 ArcGIS Server がデータにアクセスできるようにします。
Kerberos を使用した HDFS へのアクセス
GeoAnalytics Server は、Kerberos 認証を使用して HDFS にアクセスできます。
Kerberos 認証を使用して HDFS ファイル共有を登録するには、次の手順に従います。
- ArcGIS Server Administrator Directory から GeoAnalytics Server サイトにサイン インします。
ArcGIS Server Administrator Directory では、管理者としてサイン インする必要があります。フェデレートされた GeoAnalytics Server サイトに接続するには、ポータル トークン (ポータル管理者の認証情報が必要) を使用してサイン インするか、GeoAnalytics Server サイトのプライマリ サイト管理としてサイン インする必要があります。ポータル管理者ではなく、プライマリ サイト管理者のアカウント情報にもアクセスできない場合は、ポータル管理者に連絡して、これらの手順を実行してもらってください。
- [data] > [registerItem] に移動します。
- 次のテキストをコピーして、[Item] テクスト ボックスに貼り付けます。次の値を更新します。
- <bigDataFileShareName>: ビッグ データ ファイル共有にする名前に置換します。
- <hdfs path>: ビッグ データ ファイル共有の完全修飾ファイル システム パスに置換します (例: hdfs://domainname:port/folder)。
- <user@realm>: プリンシパルのユーザーおよびレルムに置換します。
- <keytab location>: keytab ファイルの場所に置換します。keytab ファイルには GeoAnalytics Server サイト内のすべてのコンピューターがアクセスできる必要があります (例: //shared/keytab/hadoop.keytab)。
{ "path": "/bigDataFileShares/<bigDataFileShareName>", "type": "bigDataFileShare", "info": { "connectionString": "{\"path\":\"<hdfs path>",\"accessMode\":\"Kerberos\",\"principal\":\"user@realm\",\"keytab\":\"<keytab location>\"}", "connectionType": "hdfs" } }
- [アイテムの登録] をクリックします。
アイテムが登録されると、ビッグ データ ファイル共有がデータ ストアとして、入力されたマニフェストとともに ArcGIS Server Manager に表示されます。マニフェストに値が入力されていない場合、手順 5 に進みます。
- ArcGIS Server Manager から GeoAnalytics Server サイトにサイン インします。
公開者または管理者としてサイン インできます。
- [サイト] > [データ ストア] に移動して、新しいビッグ データ ファイル共有の横の [マニフェストの再生成] ボタンをクリックします。
これで HDFS にビッグ データ ファイル共有とマニフェストが設定され、Kerberos 認証を使用してアクセスできるようになりました。ポータルのビッグ データ ファイル共有アイテムは、GeoAnalytics Server のビッグ データ カタログ サービスをポイントします。
Hive
Hive では、データセット内のすべてのテーブルが、ビッグ データ ファイル共有のデータセットとして認識されます。次の例では、default と CityData という 2 つのデータベースを含むメタストアが存在します。ArcGIS Server を使用して Hive ビッグ データ ファイル共有を GeoAnalytics Server に登録するときは、1 つしかデータベースを選択できません。この例では、CityData データベースが選択された場合、ビッグ データ ファイル共有に FireData と LandParcels という 2 つのデータセットが含まれることになります。
|---HiveMetastore < -- The top-level folder is what is registered as a big data file share
|---default < -- A database
|---Earthquakes
|---Hurricanes
|---GlobalOceans
|---CityData < -- A database that is registered (specified in Server Manager)
|---FireData
|---LandParcels
クラウド ストア
クラウド ストア タイプのビッグ データ ファイル共有を登録する手順は 3 つあります。
データの準備
クラウド ストア内のビッグ データ ファイル共有としてデータを準備するには、1 つの親フォルダー以下のサブフォルダーとしてデータセットを配置します。
データを構築する方法は次のようになります。この例では、3 つのデータセット (FileShareFolder、Earthquakes、および Hurricanes) が含まれている親フォルダー (GlobalOceans) を登録します。親フォルダーを登録すると、指定したフォルダーの下にあるすべてのサブディレクトリも GeoAnalytics Server に登録されます。 ビッグ データ ファイル共有として使用されるクラウド ストアにデータを構築する方法の例。このビッグ データ ファイルには、Earthquakes、Hurricanes、および GlobalOceans という 3 つのデータセットが含まれています 。
|---Cloud Store < -- The cloud store being registered
|---Container or S3 Bucket Name < -- The container (Azure) or bucket (Amazon) being registered as part of the cloud store
|---FileShareFolder < -- The parent folder that is registered as the 'folder' during cloud store registration
|---Earthquakes < -- The dataset "Earthquakes", composed of 4 csvs with the same schema
|---1960
|---01_1960.csv
|---02_1960.csv
|---1961
|---01_1961.csv
|---02_1961.csv
|---Hurricanes < -- The dataset "Hurricanes", composed of 3 shapefiles with the same schema
|---atlantic_hur.shp
|---pacific_hur.shp
|---otherhurricanes.shp
|---GlobalOceans < -- The dataset "GlobalOceans", composed of 1 shapefile
|---oceans.shp
クラウド ストアを GeoAnalytics Server に登録する
ArcGIS Server Manager から GeoAnalytics Server サイトに接続して、クラウド ストアを登録します。クラウド ストアを登録する場合、Azure コンテナー名、Amazon S3 バケット名、または Azure Data Lake Store アカウント名を含める必要があります。さらに、コンテナーまたはバケット内のフォルダーを指定することをお勧めします。指定したフォルダーはサブフォルダーで構成され、それぞれ個別のデータセットを表します。各データセットは、サブフォルダーのすべてのコンテンツで構成されます。
クラウド ストアをビッグ データ ファイル共有として登録する
以下の手順に従って、前のセクションで作成したクラウド ストアをビッグ データ ファイル共有として登録します。
- ArcGIS Server Manager から GeoAnalytics Server サイトにサイン インします。
公開者または管理者としてサイン インできます。
- [サイト] > [データ ストア] に移動し、[登録] ドロップダウン リストから [ビッグ データ ファイル共有] を選択します。
- [ビッグ データ ファイル共有の登録] ダイアログ ボックスで、次の情報を入力します。
- ビッグ データ ファイル共有の名前を入力します。
- [タイプ] ドロップダウン リストから [クラウド ストア] を選択します。
- [クラウド ストア] ドロップダウン リストからクラウド ストアの名前を選択します。
- [作成] をクリックして、クラウド ストアをビッグ データ ファイル共有として登録します。
これで、クラウド ストア用のビッグ データ ファイル共有およびマニフェストが作成されました。ポータルのビッグ データ ファイル共有アイテムは、GeoAnalytics Server のビッグ データ カタログ サービスをポイントします。
ビッグ データ ファイル共有の登録
ファイル共有、HDFS、または Hive クラウド ストアをビッグ データ ファイル共有として登録するには、ArcGIS Server Manager を使用して GeoAnalytics Server サイトに接続します。必要な手順の詳細については、ArcGIS Server ヘルプの「ArcGIS Server Manager を使用したデータの ArcGIS Server への登録」をご参照ください。
ヒント:
クラウド ストアをビッグ データ ファイル共有として登録する手順は、前のセクションで説明されています。
ビッグ データ ファイル共有が登録されると、ジオメトリと時間を表すフィールドを含め、共有場所にあるデータセットの形式について概略を示すマニフェストが生成されます。必要に応じて、ビッグ データ ファイル共有を出力場所として登録する場合、出力テンプレートのマニフェストも生成されます。ビッグ データ ファイル共有アイテムはポータルに作成され、データを登録した GeoAnalytics Server のビッグ データ カタログ サービスをポイントします。ビッグ データ カタログ サービスの詳細については、ArcGIS Services REST API ヘルプの「ビッグ データ カタログ サービス」のドキュメントをご参照ください。
ビッグ データ ファイル共有の変更
ビッグ データ カタログ サービスが作成されると、入力データのマニフェストが自動的に生成され、データを登録した GeoAnalytics Server サイトにアップロードされます。マニフェストを生成するプロセスでは、ジオメトリおよび時間を表すフィールドを常に正しく推定できるとは限らないため、編集の適用が必要になる場合があります。マニフェストを編集するには、「ArcGIS Server Manager でのビッグ データ ファイル共有のマニフェストの編集」の手順に従います。ビッグ データ ファイル共有のマニフェストの詳細については、ArcGIS Server ヘルプの「ビッグ データ ファイル共有のマニフェストについて」をご参照ください。
ビッグ データ ファイル共有の出力テンプレートの変更
ビッグ データ ファイル共有を出力場所として使用する場合、出力テンプレートが自動的に生成されます。これらのテンプレートは、ファイル タイプ、時間およびジオメトリの登録方法などの、出力解析結果の書式設定についての概要を示します。ジオメトリまたは時間の書式設定を変更するか、テンプレートを追加または削除する場合は、テンプレートを変更できます。出力テンプレートを編集するには、「ArcGIS Server Manager でのビッグ データ ファイル共有のマニフェストの編集」の手順に従います。出力テンプレートの詳細については、「ビッグ データ ファイル共有での出力テンプレート」をご参照ください。
ビッグ データ ファイル共有に対する解析の実行
ビッグ データ ファイル共有内のデータセットに対して解析を実行するには、GeoAnalytics Server をサポートし、次のいずれかのコンポーネントを備えた任意のクライアントを使用します。
- ArcGIS Pro
- Map Viewer
- ArcGIS REST API
- ArcGIS API for Python
ArcGIS Pro または Map Viewer を使用してビッグ データ ファイル共有に対する解析を実行するには、使用する GeoAnalytics ツールを選択します。ツールに対する入力として、ArcGIS Pro の [ポータル] または Map Viewer の [レイヤーの参照] ダイアログ ボックスで、データが存在する場所を参照して選択します。データを自分自身で登録した場合、データは [マイ コンテンツ] にあります。それ以外の場合は、[グループ] または [すべてのポータル] を調べてみます。解析用に選択されたビッグ データ ファイル共有レイヤーはマップに表示されない点に注意してください。
備考:
必ず、登録されたビッグ データ ファイル共有へのアクセス権を持つポータル アカウントを使用してサイン インするようにしてください。検索語に「bigDataFileShare*」を使用してポータルを検索すると、アクセス可能なビッグ データ ファイル共有をすばやく見つけることができます。
ArcGIS REST API を使用してビッグ データ ファイル共有に対する解析を実行するには、入力としてビッグ データ カタログ サービスの URL を使用します。この URL の形式は {"url":" https://webadaptorhost.domain.com/webadaptorname/rest/DataStoreCatalogs/bigDataFileShares_filesharename/BigDataCatalogServer/dataset"} になります。たとえば、コンピューター名が example、ドメイン名が esri、ArcGIS Web Adaptor 名が server、ビッグ データ ファイル共有名が MyData、データセット名が Earthquakes の場合、URL は {"url":" https://example.esri.com/server/rest/DataStoreCatalogs/bigDataFileShares_MyData/BigDataCatalogServer/Earthquakes"}になります。REST を介したビッグ データ解析への入力の詳細については、ArcGIS Services REST API のドキュメントにある「フィーチャ入力」のトピックをご参照ください。
ビッグ データ ファイル共有への結果の保存
データセット (ビッグ データ ファイル共有またはその他の入力) に対して解析を実行し、その結果をビッグ データ ファイル共有に保存することができます。結果をビッグ データ ファイル共有に保存すると、それらを視覚化できなくなります。これは、次のクライアントを使用して実行できます。
- Map Viewer
- ArcGIS REST API
- ArcGIS API for Python
結果をビッグ データ ファイル共有に書き込むと、入力マニフェストが、保存したデータセットを含むように更新されます。これで、ビッグ データ ファイル共有に書き込んだ結果が、別のツールを実行するための入力として利用できるようになりました。