Erste Schritte mit Big-Data-Dateifreigaben—Portal for ArcGIS

Big-Data-Dateifreigaben

Eine Big-Data-Dateifreigabe ist ein Element, das im Portal erstellt wird und einen Speicherort referenziert, der für den ArcGIS GeoAnalytics Server verfügbar ist. Der Speicherort der Big-Data-Dateifreigabe kann als Eingabe und Ausgabe für Feature-Daten (Punkte, Polylinien, Polygone und Tabellendaten) von GeoAnalytics-Werkzeugen verwendet werden. Wenn Sie eine Big-Data-Dateifreigabe erstellen, wird im Portal ein Element erstellt. Das Element verweist auf einen Big-Data-Katalog-Service, in dem die in der Big-Data-Dateifreigabe befindlichen Datasets und ihre Schemas beschrieben werden, darunter Geometrie- und Zeitinformationen und die registrierten Ausgabeformate, sogenannte Vorlagen. Wenn Sie die Big-Data-Dateifreigabe als Eingabe für ein ArcGIS GeoAnalytics Server-Werkzeug verwenden, können Sie nach dem Element suchen und das Dataset analysieren.

Die Verwendung einer Big-Data-Dateifreigabe bietet eine Reihe von Vorteilen. Sie können die Daten an einem zugänglichen Speicherort behalten, bis Sie bereit sind, die Analyse durchzuführen. Eine Big-Data-Dateifreigabe greift während der Analyse auf die Daten zu, sodass Sie ihr Daten eines vorhandenen Datasets hinzufügen können, ohne die Daten erneut registrieren oder veröffentlichen zu müssen. Außerdem können Sie das Manifest so ändern, dass Sie Datasets in der Big-Data-Dateifreigabe entfernen, hinzufügen oder aktualisieren können. Big-Data-Dateifreigaben sind extrem flexibel in Bezug auf die Definition von Zeit und Geometrie und lassen mehrere Zeitformate innerhalb eines Datasets zu. Big-Data-Dateifreigaben ermöglichen Ihnen außerdem die Partitionierung Ihrer Datasets, wobei mehrere Partitionen dennoch als einzelnes Dataset behandelt werden. Wenn Sie Big-Data-Dateifreigaben für Ausgabedaten verwenden, können Sie die Ergebnisse in einem Format speichern, das sich auch für andere Workflows eignet, z. B. als Parquet-Datei, die Sie weiter analysieren oder speichern können.

Hinweis:

Auf Big-Data-Dateifreigaben wird nur bei der Ausführung von GeoAnalytics Tools zugegriffen. Sie können Big-Data-Dateien also nur durchsuchen und zur Analyse hinzufügen, sie aber nicht in einer Karte visualisieren.

Big-Data-Dateifreigaben können die folgenden Eingabe-Datenquellen referenzieren:

Datenfreigabe: Ein Verzeichnis mit Datasets auf einem lokalen Laufwerk oder einer Netzwerkfreigabe.
Apache Hadoop Distributed File System (HDFS): Ein HDFS-Verzeichnis mit Datasets.
Apache Hive: Hive-Metastore-Datenbanken.
Cloud-Speicher: Ein Amazon Simple Storage Service (S3)-Bucket, Microsoft Azure-Blob-Container oder Microsoft Azure Data Lake-Speicher, der ein Verzeichnis mit Datasets enthält.

Wenn Sie Ergebnisse in eine Big-Data-Dateifreigabe schreiben, können Sie für die Ausgabe die folgenden GeoAnalytics Tools verwenden:

Dateifreigabe
HDFS
Cloud-Speicher

Hinweis:

Microsoft Azure-Blob-Container als Ausgabeoption werden nicht unterstützt.

In Big-Data-Dateifreigaben werden die folgenden Dateitypen als Datasets für Ein- und Ausgaben unterstützt:

Dateien mit Trennzeichen (z. B. .csv, .tsv und .txt)
Shapefiles (.shp)
Parquet-Dateien (.gz.parquet)
ORC-Dateien (orc.crc)

Hinweis:

Eine Big-Data-Dateifreigabe ist nur dann verfügbar, wenn der Portal-Administrator GeoAnalytics Server aktiviert hat. Weitere Informationen zum Aktivieren von GeoAnalytics Server finden Sie unter Einrichten von ArcGIS GeoAnalytics Server.

Big-Data-Dateifreigaben sind eine von mehreren Möglichkeiten des Datenzugriffs durch GeoAnalytics Tools und sind nicht zwingend für GeoAnalytics Tools erforderlich. Unter Verwenden der GeoAnalytics Tools in Map Viewer finden Sie eine Liste möglicher Dateneingaben und -ausgaben für GeoAnalytics Tools.

Sie können so viele Big-Data-Dateifreigaben registrieren, wie Sie benötigen. Jede Big-Data-Dateifreigabe kann beliebig viele Datasets enthalten.

In der folgenden Tabelle werden die wichtigsten Begriffe zum Thema Big-Data-Dateifreigaben erklärt.


Befristet	Beschreibung
Big-Data-Dateifreigabe	Ein beim GeoAnalytics Server registrierter Speicherort, der als Dataset-Eingabe und/oder -Ausgabe für GeoAnalytics-Werkzeuge verwendet werden soll.
Big-Data-Katalog-Service	Ein Service, der die Eingabe-Datasets und Schemas und die Namen der Ausgabenvorlagen der Big-Data-Dateifreigabe beschreibt. Dieser wird bei der Registrierung der Big-Data-Dateifreigabe und der Erzeugung des Manifests erstellt. Weitere Informationen zu Big-Data-Katalog-Services finden Sie in der Dokumentation zum Big-Data-Katalog-Service in der Hilfe zur ArcGIS-REST-API.
Element der Big-Data-Dateifreigabe	Ein Element im Portal, das den Big-Data-Katalog-Service referenziert. Indem Sie dieses Element im Portal freigeben, können Sie steuern, welcher Benutzer Ihre Big-Data-Dateifreigabe als Eingabe für GeoAnalytics verwenden darf.
Manifest	Eine JSON-Datei, in der die verfügbaren Datasets und das Schema für Eingaben in der Big-Data-Dateifreigabe beschrieben werden. Das Manifest wird bei der Registrierung einer Big-Data-Dateifreigabe automatisch generiert und kann bearbeitet oder durch Verwendung einer Hints-Datei geändert werden. Eine einzelne Big-Data-Dateifreigabe hat ein Manifest.
Ausgabevorlagen	Eine oder mehrere Vorlagen, in denen der Dateityp und die optionale Formatierung für die Schreibvorgänge von Ergebnissen in eine Big-Data-Dateifreigabe beschrieben wird. Eine Vorlage kann zum Beispiel vorgeben, dass die Ergebnisse in ein Shapefile geschrieben werden. Eine Big-Data-Dateifreigabe kann keine, eine oder mehrere Ausgabevorlagen enthalten.
Typ der Big-Data-Dateifreigabe	Der Typ der registrierten Speicherorte. Eine Big-Data-Dateifreigabe kann z. B. vom Typ "HDFS" sein.
Format des Big-Data-Dateifreigabe-Datasets	Das Format der gelesenen oder geschriebenen Daten. Beispiel: Shapefile.
Hints-Datei	Eine optionale Datei zur Generierung eines Manifests für durch Trennzeichen getrennte Dateien, die als Eingabe verwendet werden.

Vorbereiten von Daten auf die Registrierung als Big-Data-Dateifreigabe

Datasets, die als Eingaben in einer Big-Data-Dateifreigabe verwendet werden sollen, müssen ordnungsgemäß formatiert sein. Weitere Informationen über die vom Typ der Big-Data-Dateifreigabe abhängige Formatierung finden Sie unten.

Dateifreigaben und HDFS

Zur Vorbereitung Ihrer Daten auf eine Big-Data-Dateifreigabe müssen Sie die Datasets als Unterordner unter einem einzelnen übergeordneten Ordner formatieren, der dann registriert wird. Die Namen der Unterordner innerhalb des übergeordneten Ordners, den Sie registrieren, entsprechen den Dataset-Namen. Wenn Ihre Unterordner mehrere Ordner oder Dateien enthalten, werden sämtliche Inhalte der obersten Unterordner als ein Dataset gelesen und müssen dasselbe Schema verwenden. Im folgenden Beispiel wird der Ordner FileShareFolder mit den drei Datasets Earthquakes, Hurricanes und GlobalOceans registriert. Wenn Sie einen übergeordneten Ordner registrieren, werden auch alle Unterverzeichnisse unter dem angegebenen Ordner beim GeoAnalytics Server registriert. Registrieren Sie stets den übergeordneten Ordner (z. B. \\machinename\FileShareFolder), der die einzelnen Dataset-Ordner enthält.

Beispiel für eine Big-Data-Dateifreigabe mit den drei Datasets "Earthquakes", "Hurricanes" und "GlobalOceans".


|---FileShareFolder                 < -- The top-level folder is what is registered as a big data file share
   |---Earthquakes                  < -- A dataset "Earthquakes", composed of 4 csvs with the same schema
      |---1960
         |---01_1960.csv
         |---02_1960.csv
      |---1961
         |---01_1961.csv
         |---02_1961.csv
   |---Hurricanes                   < -- The dataset "Hurricanes", composed of 3 shapefiles with the same schema
      |---atlantic_hur.shp
      |---pacific_hur.shp
      |---otherhurricanes.shp
   |---GlobalOceans                 < -- The dataset "GlobalOceans", composed of a single shapefile
      |---oceans.shp

Für Dateifreigaben und HDFS gilt dieselbe Struktur, obwohl sich die Benennungen unterscheiden. Bei einer Dateifreigabe gibt es einen Ordner oder ein Verzeichnis der obersten Ebene, während die Datasets durch Unterverzeichnisse dargestellt werden. Bei HDFS wird der Speicherort der Dateifreigabe registriert und enthält die Datasets. In der folgenden Tabelle sind die Unterschiede zusammengefasst:


	Dateifreigabe	HDFS
Speicherort der Big-Data-Dateifreigabe	Ein Ordner oder Verzeichnis	Ein HDFS-Pfad
Datasets	Unterordner der obersten Ebene	Datasets innerhalb des HDFS-Pfades

Sobald Ihre Daten in einem Ordner mit Unterordnern für die einzelnen Datasets organisiert sind, machen Sie sie für Ihren GeoAnalytics Server zugänglich, indem Sie die Anleitungen unter Bereitstellen der Daten für ArcGIS Server befolgen und den Dataset-Ordner registrieren.

Zugriff auf HDFS über Kerberos

GeoAnalytics Server kann mittels Kerberos-Authentifizierung auf HDFS zugreifen.

Führen Sie die folgenden Schritte aus, um die HDFS-Dateifreigabe mit Kerberos-Authentifizierung zu registrieren:

Melden Sie sich über das ArcGIS Server-Administratorverzeichnis bei der GeoAnalytics Server-Site an.
Für das ArcGIS ServerAdministratorverzeichnis müssen Sie sich als Administrator anmelden. Um eine Verbindung mit der verbundenen GeoAnalytics Server-Site herzustellen, müssen Sie sich mit einem Portal-Token, für den die Anmeldedaten des Portal-Administrators erforderlich sind, oder als primärer Site-Administrator der GeoAnalytics Server-Site anmelden. Wenn Sie kein Portal-Administrator sind oder keinen Zugriff auf die Kontoinformationen des primären Site-Administrators haben, bitten Sie den Portal-Administrator, diese Schritte auszuführen.
Wechseln Sie zu Daten > registerItem.
Kopieren Sie den folgenden Text, und fügen Sie ihn in das Textfeld Item ein. Aktualisieren Sie die folgenden Werte:
- <bigDataFileShareName>: Geben Sie stattdessen den von Ihnen gewünschten Namen für die Big-Data-Dateifreigabe ein.
- <hdfs path>: Geben Sie stattdessen den vollständig qualifizierten Dateisystempfad zur Big-Data-Dateifreigabe an, z. B. hdfs://domainname:port/folder.
- <user@realm>: Geben Sie stattdessen den Benutzer und Realm des Principal ein.
- <keytab location>: Geben Sie stattdessen den Speicherort der Keytab-Datei (Chiffrierschlüsseldatei) ein. Die Keytab-Datei muss für alle Computer in der GeoAnalytics Server-Site zugänglich sein, z. B. //shared/keytab/hadoop.keytab.
```
{
   "path": "/bigDataFileShares/<bigDataFileShareName>",
   "type": "bigDataFileShare",
   "info": 
         {
          "connectionString": "{\"path\":\"<hdfs path>",\"accessMode\":\"Kerberos\",\"principal\":\"user@realm\",\"keytab\":\"<keytab location>\"}",
          "connectionType": "hdfs"
         }
}
  
```
Klicken Sie auf Register Item.
Sobald das Element registriert ist, wird die Big-Data-Dateifreigabe als Data Store in ArcGIS Server Manager mit einem gefüllten Manifest angezeigt. Wenn das Manifest nicht gefüllt ist, dann fahren Sie mit Schritt 5 fort.
Melden Sie sich über ArcGIS Server Manager bei Ihrer GeoAnalytics Server-Site an.
Sie können sich als Publisher oder Administrator anmelden.
Wechseln Sie zu Site > Data Stores, und klicken Sie neben der Big-Data-Dateifreigabe auf die Schaltfläche Manifest neu generieren.

Sie verfügen nun über eine Big-Data-Dateifreigabe mit Manifest für Ihr HDFS, auf das Sie mit Kerberos-Authentifizierung zugreifen können. Das Big-Data-Dateifreigabeelement in Ihrem Portal verweist auf einen Big-Data-Katalogservice auf dem GeoAnalytics Server.

Hive

Bei Hive werden alle Tabellen in einer Datenbank als Datasets einer Big-Data-Dateifreigabe erkannt. Im folgenden Beispiel ist ein Metastore mit den beiden Datenbanken default und CityData verfügbar. Beim Registrieren einer Hive-Big-Data-Dateifreigabe beim ArcGIS Server über GeoAnalytics Server kann nur eine Datenbank ausgewählt werden. Wenn wie in diesem Beispiel die Datenbank CityData ausgewählt wird, würde es in der Big-Data-Dateifreigabe zwei Datasets geben: FireData und LandParcels.


|---HiveMetastore                 < -- The top-level folder is what is registered as a big data file share
   |---default                    < -- A database
      |---Earthquakes
      |---Hurricanes
      |---GlobalOceans
   |---CityData				               < -- A database that is registered (specified in Server Manager)
      |---FireData
      |---LandParcels

Cloud-Speicher

Die Registrierung einer Big-Data-Dateifreigabe vom Typ "Cloud-Speicher" erfolgt in drei Schritten.

Vorbereiten der Daten

Zur Vorbereitung Ihrer Daten auf eine Big-Data-Dateifreigabe in einem Cloud-Speicher müssen Sie die Datasets als Unterordner unter einem einzelnen übergeordneten Ordner formatieren.

Das nachfolgende Beispiel veranschaulicht, wie Ihre Daten strukturiert werden müssen. In diesem Beispiel wird der übergeordnete Ordner, FileShareFolder, der drei Datasets, Earthquakes, Hurricanes und GlobalOceans, enthält, registriert. Wenn Sie einen übergeordneten Ordner registrieren, werden auch alle Unterverzeichnisse des angegebenen Ordners beim GeoAnalytics Server registriert.

Beispiel für das Strukturieren von Daten in einem Cloud-Speicher, der als Big-Data-Dateifreigabe verwendet wird. Diese Big-Data-Datei enthält drei Datasets: "Earthquakes", "Hurricanes" und "GlobalOceans".


|---Cloud Store                          < -- The cloud store being registered
   |---Container or S3 Bucket Name       < -- The container (Azure) or bucket (Amazon) being registered as part of the cloud store
      |---FileShareFolder                < -- The parent folder that is registered as the 'folder' during cloud store registration
         |---Earthquakes                 < -- The dataset "Earthquakes", composed of 4 csvs with the same schema
            |---1960
               |---01_1960.csv
               |---02_1960.csv
            |---1961
               |---01_1961.csv
               |---02_1961.csv
         |---Hurricanes                  < -- The dataset "Hurricanes", composed of 3 shapefiles with the same schema
            |---atlantic_hur.shp
            |---pacific_hur.shp
            |---otherhurricanes.shp
         |---GlobalOceans                < -- The dataset "GlobalOceans", composed of 1 shapefile
            |---oceans.shp

Registrieren des Cloud-Speichers beim GeoAnalytics Server

Stellen Sie über ArcGIS Server eine Verbindung zu Ihrer GeoAnalytics Server-Site her, um einen Cloud-Speicher zu registrieren. Wenn Sie einen Cloud-Speicher registrieren, müssen Sie einen Namen für den Azure-Container, für den Amazon S3-Bucket bzw. für ein Azure Data Lake-Konto einfügen. Empfohlen wird, zusätzlich einen Ordner im Container bzw. Bucket anzugeben. Der angegebene Ordner besteht aus Unterordnern und stellt ein einzelnes Dataset dar. Jedes Dataset besteht aus sämtlichen Inhalten des Unterordners.

Registrieren des Cloud-Speichers als Big-Data-Dateifreigabe

Führen Sie die folgenden Schritte aus, um den Cloud-Speicher zu registrieren, den Sie im vorherigen Abschnitt als Big-Data-Dateifreigabe erstellt haben:

Melden Sie sich über ArcGIS Server Manager bei der GeoAnalytics Server-Site an.
Sie können sich als Publisher oder Administrator anmelden.
Wechseln Sie zu Site > Data Stores, und wählen Sie Big-Data-Dateifreigabe aus der Dropdown-Liste Registrieren aus.
Geben Sie im Dialogfeld Big-Data-Dateifreigabe die folgenden Informationen an:
1. Geben Sie einen Namen für die Big-Data-Dateifreigabe ein.
2. Wählen Sie Cloud-Speicher aus der Dropdown-Liste Typ aus.
3. Wählen Sie den Namen des Cloud-Speichers aus der Dropdown-Liste Cloud-Speicher aus.
4. Klicken Sie auf Erstellen, um Ihren Cloud-Speichers als Big-Data-Dateifreigabe zu speichern.

Sie verfügen nun über eine Big-Data-Dateifreigabe und ein Manifest für Ihren Cloud-Speicher. Das Big-Data-Dateifreigabeelement in Ihrem Portal verweist auf einen Big-Data-Katalogservice auf dem GeoAnalytics Server.

Registrieren der Big-Data-Dateifreigabe

Um eine Dateifreigabe, ein HDFS oder einen Hive-Cloud-Speicher als Big-Data-Dateifreigabe zu registrieren, stellen Sie eine Verbindung mit Ihrer GeoAnalytics Server-Site über ArcGIS Server Manager her. Weitere Informationen zu den notwendigen Schritten finden Sie unter Registrieren von Daten bei ArcGIS Server mit Manager in der ArcGIS Server-Hilfe.

Tipp:

Schritte zum Registrieren eines Cloud-Speichers als Big-Data-Dateifreigabe wurden im vorherigen Abschnitt erläutert.

Beim Registrieren von Big-Data-Dateifreigaben wird ein Manifest generiert, in dem das Format der Datasets am Speicherort der Freigabe sowie die Felder zur Darstellung von Geometrie und Zeit beschrieben werden. Wenn Sie Ihre Big-Data-Dateifreigabe optional als Ausgabeverzeichnis registriert haben, wird zudem ein Manifest für die Ausgabevorlage generiert. Ein Big-Data-Dateifreigabeelement wird in Ihrem Portal erstellt und verweist auf einen Big-Data-Katalog-Service auf dem GeoAnalytics Server, bei dem Sie die Daten registriert haben. Weitere Informationen zu Big-Data-Katalog-Services finden Sie in der Dokumentation zum Big-Data-Katalog-Service in der Hilfe zur ArcGIS-REST-API.

Ändern einer Big-Data-Dateifreigabe

Beim Erstellen eines Big-Data-Katalog-Service wird automatisch ein Manifest für die Eingabedaten generiert und auf die GeoAnalytics Server-Site hochgeladen, bei der Sie die Daten registriert haben. Beim Generieren des Manifests werden die Felder mit Angaben zu Geometrie und Zeit gelegentlich möglicherweise nicht korrekt eingeschätzt, sodass Sie ggf. Korrekturen vornehmen müssen. Befolgen Sie zum Bearbeiten eines Manifests die Anleitungen unter Bearbeiten von Big-Data-Dateifreigaben in Manager. Weitere Informationen zu Big-Data-Dateifreigabemanifesten finden Sie unter Manifest zur Big-Data-Dateifreigabe in der ArcGIS Server-Hilfe.

Ändern der Ausgabevorlagen für eine Big-Data-Dateifreigabe

Wenn Sie die Big-Data-Dateifreigabe als Ausgabeverzeichnis verwenden, werden automatisch Ausgabevorlagen generiert. In diesen wird die Formatierung der Ergebnisse der Ausgabeanalyse beschrieben, darunter der Dateityp und die Art der Registrierung der Zeit und der Geometrie. Sie können die Geometrie- oder Zeitformatierung in den Vorlagen ändern, oder Sie können Vorlagen hinzufügen oder löschen. Befolgen Sie zum Bearbeiten der Ausgabevorlagen die Anleitungen unter Bearbeiten von Big-Data-Dateifreigaben in Manager. Weitere Informationen über Ausgabevorlagen finden Sie unter Ausgabevorlagen in einer Big-Data-Dateifreigabe.

Ausführen von Analysen für Big-Data-Dateifreigaben

Sie können über alle Clients, die GeoAnalytics Server unterstützen, Analysen für Datasets in Big-Data-Dateifreigaben durchführen. Hierzu gehören folgende Clients:

ArcGIS Pro
Map Viewer
ArcGIS-REST-API
ArcGIS API for Python

Wenn Sie Ihre Analyse einer Big-Data-Dateifreigabe über ArcGIS Pro oder Map Viewer durchführen möchten, dann wählen Sie das GeoAnalytics Tools, das Sie verwenden möchten, aus. Als Eingabe für das Werkzeug navigieren Sie unter Portal in ArcGIS Pro oder über das Dialogfeld Layer durchsuchen in Map Viewer zum Speicherort Ihrer Daten. Falls Sie die Daten selbst registriert haben, befinden Sie sich in Eigene Inhalte. Ansonsten finden Sie sie in Ihren Gruppen oder unter Gesamtes Portal. Beachten Sie, dass ein Big-Data-Dateifreigabe-Layer, der zur Analyse ausgewählt wurde, in der Karte nicht angezeigt wird.

Hinweis:

Stellen Sie sicher, dass Sie sich mit einem Portal-Konto angemeldet haben, das über Zugriffsberechtigungen für die registrierte Big-Data-Dateifreigabe verfügt. Suchen Sie in Ihrem Portal nach dem Suchbegriff bigDataFileShare*, um sämtliche Big-Data-Dateifreigaben, auf die Sie zugreifen können, schnell zu finden.

Verwenden Sie, um eine Analyse einer Big-Data-Dateifreigabe über die ArcGIS-REST-API durchzuführen, die URL des Big-Data-Katalog-Service als Eingabe. Sie hat das Format {"url":" https://webadaptorhost.domain.com/webadaptorname/rest/DataStoreCatalogs/bigDataFileShares_filesharename/BigDataCatalogServer/dataset"}. Bei einem Computer namens example, einer Domäne namens esri, einem Web Adaptor namens server, einer Big-Data-Dateifreigabe namens MyData und einem Dataset namens Earthquakes lautet die URL folgendermaßen: {"url":" https://example.esri.com/server/rest/DataStoreCatalogs/bigDataFileShares_MyData/BigDataCatalogServer/Earthquakes"}. Weitere Informationen zu Eingaben für Big-Data-Analysen über REST finden Sie im Thema Feature Input in der Dokumentation zur ArcGIS-REST-API.

Speichern von Ergebnissen in einer Big-Data-Dateifreigabe

Sie können eine Analyse in einem Dataset (Big-Data-Dateifreigabe oder sonstige Eingabe) durchführen und die Ergebnisse in der Big-Data-Dateifreigabe speichern. Ergebnisse, die in der Big-Data-Dateifreigabe gespeichert werden, können nicht dargestellt werden. Dazu benötigen Sie einen der folgenden Clients:

Map Viewer
ArcGIS-REST-API
ArcGIS API for Python

Wenn Sie Ergebnisse in eine Big-Data-Dateifreigabe schreiben, wird das soeben gespeicherte Dataset in das Eingabemanifest aufgenommen. Die in die Big-Data-Dateifreigabe geschriebenen Ergebnisse sind nun als Eingabe für andere Werkzeuge verfügbar.

Feedback zu diesem Thema?