Skip To Content

Erste Schritte mit Big-Data-Dateifreigaben

Big-Data-Dateifreigaben

Bei einer Big-Data-Dateifreigabe handelt es sich um ein Element, das in Ihrem Portal erstellt wird und Feature-Daten (Punkte, Polylinien, Polygone oder Tabellendaten) an einem Speicherort referenziert, der für den ArcGIS GeoAnalytics Server verfügbar ist. Das Big-Data-Dateifreigabeelement in Ihrem Portal ermöglicht Ihnen von ArcGIS GeoAnalytics Server-Werkzeugen aus die Suche nach Ihren registrierten Daten. Big-Data-Dateifreigaben können die folgenden Datenquellen referenzieren:

  • Datenfreigabe: Ein Verzeichnis mit Datasets auf einem lokalen Laufwerk oder einer Netzwerkfreigabe.
  • HDFS: Ein Apache HDFS-Verzeichnis (Hadoop Distributed File System) mit Datasets.
  • Hive: Apache Hive-Metastore-Datenbanken.
  • Cloud-Speicher: Ein Amazon Simple Storage Service (S3)-Bucket, Microsoft Azure BLOB-Container oder Microsoft Azure Data Lake Store, der ein Verzeichnis mit Datasets enthält.
    Hinweis:

    Die Unterstützung für Microsoft Azure Data Lake Store wurde in ArcGIS Enterprise 10.6.1 neu hinzugefügt.

Hinweis:

Eine Big-Data-Dateifreigabe ist nur dann verfügbar, wenn der Portal-Administrator GeoAnalytics Server aktiviert hat. Weitere Informationen zum Aktivieren von GeoAnalytics Server finden Sie unter Einrichten von ArcGIS GeoAnalytics Server.

Die Verwendung einer gemeinsamen Big-Data-Dateifreigabe für alle Datenquellen bietet eine Reihe von Vorteilen. Sie können die Daten an einem zugänglichen Speicherort behalten, bis Sie bereit sind, die Analyse durchzuführen. Eine Big-Data-Dateifreigabe greift während der Analyse auf die Daten zu, sodass Sie ihr weitere Daten eines vorhandenen Datasets hinzufügen können, ohne die Daten erneut registrieren oder veröffentlichen zu müssen. Außerdem können Sie das Manifest so ändern, dass Sie Datasets in der Big-Data-Dateifreigabe entfernen, hinzufügen oder aktualisieren können. Big-Data-Dateifreigaben sind extrem flexibel in Bezug auf die Definition von Zeit und Geometrie und lassen mehrere Zeitformate innerhalb eines Datasets zu. Big-Data-Dateifreigaben ermöglichen Ihnen außerdem die Partitionierung Ihrer Datasets, wobei mehrere Partitionen dennoch als einzelnes Dataset behandelt werden.

Hinweis:

Auf Big-Data-Dateifreigaben wird nur bei der Ausführung von GeoAnalytics Tools zugegriffen. Sie können Big-Data-Dateien also nur durchsuchen und zur Analyse hinzufügen, sie aber nicht in einer Karte visualisieren.

Big-Data-Dateifreigaben sind eine von mehreren Möglichkeiten des Zugriffs von GeoAnalytics Tools auf Ihre Daten. Unter Verwenden der GeoAnalytics Tools in Map Viewer finden Sie eine Liste möglicher Dateneingaben für GeoAnalytics Tools.

In Big-Data-Dateifreigaben werden die folgenden Dateitypen als Datasets unterstützt:

  • Dateien mit Trennzeichen (z. B. .csv, .tsv und .txt)
  • Shapefiles (.shp)
  • Parquet-Dateien (.gz.parquet)
  • ORC-Dateien (orc.crc)

Vorbereiten von Daten auf die Registrierung als Big-Data-Dateifreigabe

Dateifreigaben und HDFS

Zur Vorbereitung Ihrer Daten auf eine Big-Data-Dateifreigabe müssen Sie die Datasets als Unterordner unter einem einzelnen übergeordneten Ordner formatieren, der dann registriert wird. Die Namen der Unterordner innerhalb des übergeordneten Ordners, den Sie registrieren, entsprechen den Dataset-Namen. Wenn Ihre Unterordner mehrere Ordner oder Dateien enthalten, werden sämtliche Inhalte der obersten Unterordner als ein Dataset gelesen und müssen dasselbe Schema verwenden. Im folgenden Beispiel wird der Ordner FileShareFolder mit den drei Datasets Earthquakes, Hurricanes und GlobalOceans registriert. Wenn Sie einen übergeordneten Ordner registrieren, werden auch alle Unterverzeichnisse unter dem angegebenen Ordner beim GeoAnalytics Server registriert. Registrieren Sie stets den übergeordneten Ordner (z. B. \\machinename\FileShareFolder), der die einzelnen Dataset-Ordner enthält.

Beispiel für eine Big-Data-Dateifreigabe mit den drei Datasets "Earthquakes", "Hurricanes" und "GlobalOceans".

|---FileShareFolder                 < -- The top-level folder is what is registered as a big data file share
   |---Earthquakes                  < -- A dataset "Earthquakes", composed of 4 csvs with the same schema
      |---1960
         |---01_1960.csv
         |---02_1960.csv
      |---1961
         |---01_1961.csv
         |---02_1961.csv
   |---Hurricanes                   < -- The dataset "Hurricanes", composed of 3 shapefiles with the same schema
      |---atlantic_hur.shp
      |---pacific_hur.shp
      |---otherhurricanes.shp
   |---GlobalOceans                 < -- The dataset "GlobalOceans", composed of a single shapefile
      |---oceans.shp

Für Dateifreigaben und HDFS gilt dieselbe Struktur, obwohl sich die Benennungen unterscheiden. Bei einer Dateifreigabe gibt es einen Ordner oder ein Verzeichnis der obersten Ebene, während die Datasets durch Unterverzeichnisse dargestellt werden. Bei HDFS wird der Speicherort der Dateifreigabe registriert und enthält die Datasets. In der folgenden Tabelle sind die Unterschiede zusammengefasst:

DateifreigabeHDFS

Speicherort der Big-Data-Dateifreigabe

Ein Ordner oder Verzeichnis

Ein HDFS-Pfad

Datasets

Unterordner der obersten Ebene

Datasets innerhalb des HDFS-Pfades

Sobald Ihre Daten in einem Ordner mit Unterordnern für die einzelnen Datasets organisiert sind, machen Sie sie für Ihren GeoAnalytics Server zugänglich, indem Sie die Anleitungen unter Bereitstellen der Daten für ArcGIS Server befolgen und den Dataset-Ordner registrieren.

Zugreifen auf HDFS mit Kerberos

In ArcGIS Enterprise 10.6.1 kann GeoAnalytics Server mit Kerberos-Authentifizierung auf HDFS zugreifen.

Führen Sie die folgenden Schritte aus, um die HDFS-Dateifreigabe mit Kerberos-Authentifizierung zu registrieren:

  1. Melden Sie sich über das ArcGIS Server-Administratorverzeichnis bei der GeoAnalytics Server-Site an.

    Für das ArcGIS ServerAdministratorverzeichnis müssen Sie sich als Administrator anmelden. Um eine Verbindung mit der verbundenen GeoAnalytics Server-Site herzustellen, müssen Sie sich mit einem Portal-Token, für den die Anmeldedaten des Portal-Administrators erforderlich sind, oder als primärer Site-Administrator der GeoAnalytics Server-Site anmelden. Wenn Sie kein Portal-Administrator sind oder keinen Zugriff auf die Kontoinformationen des primären Site-Administrators haben, bitten Sie den Portal-Administrator, diese Schritte auszuführen.

  2. Wechseln Sie zu Daten > registerItem.
  3. Kopieren Sie den folgenden Text, und fügen Sie ihn in das Textfeld Item ein. Aktualisieren Sie die folgenden Werte:

    • <bigDataFileShareName>: Geben Sie stattdessen den von Ihnen gewünschten Namen für die Big-Data-Dateifreigabe ein.
    • <hdfs path>: Geben Sie stattdessen den vollständig qualifizierten Dateisystempfad zur Big-Data-Dateifreigabe an, z. B. hdfs://domainname:port/folder.
    • <user@realm>: Geben Sie stattdessen den Benutzer und Realm des Principal ein.
    • <keytab location>: Geben Sie stattdessen den Speicherort der Keytab-Datei (Chiffrierschlüsseldatei) ein. Die Keytab-Datei muss für alle Computer in der GeoAnalytics Server-Site zugänglich sein, z. B. //shared/keytab/hadoop.keytab.

    {
       "path": "/bigDataFileShares/<bigDataFileShareName>",
       "type": "bigDataFileShare",
       "info": 
             {
              "connectionString": "{\"path\":\"<hdfs path>",\"accessMode\":\"Kerberos\",\"principal\":\"user@realm\",\"keytab\":\"<keytab location>\"}",
              "connectionType": "hdfs"
             }
    }
      
    

  4. Klicken Sie auf Register Item.

    Sobald das Element registriert ist, wird die Big-Data-Dateifreigabe als Data Store in ArcGIS Server Manager mit einem gefüllten Manifest angezeigt. Wenn das Manifest nicht gefüllt ist, dann fahren Sie mit Schritt 5 fort.

  5. Melden Sie sich über ArcGIS Server Manager bei Ihrer GeoAnalytics Server-Site an.

    Sie können sich als Publisher oder Administrator anmelden.

  6. Wechseln Sie zu Site > Data Stores, und klicken Sie neben der Big-Data-Dateifreigabe auf die Schaltfläche Manifest neu generieren.

Sie verfügen nun über eine Big-Data-Dateifreigabe mit Manifest für Ihr HDFS, auf das Sie mit Kerberos-Authentifizierung zugreifen können. Das Big-Data-Dateifreigabeelement in Ihrem Portal verweist auf einen Big-Data-Katalogservice auf dem GeoAnalytics Server.

Hive

Bei Hive werden alle Tabellen in einer Datenbank als Datasets einer Big-Data-Dateifreigabe erkannt. Im folgenden Beispiel ist ein Metastore mit den beiden Datenbanken default und CityData verfügbar. Beim Registrieren einer Hive-Big-Data-Dateifreigabe beim ArcGIS Server über GeoAnalytics Server kann nur eine Datenbank ausgewählt werden. Wenn wie in diesem Beispiel die Datenbank CityData ausgewählt wird, würde es in der Big-Data-Dateifreigabe zwei Datasets geben: FireData und LandParcels.

|---HiveMetastore                 < -- The top-level folder is what is registered as a big data file share
   |---default                    < -- A database
      |---Earthquakes
      |---Hurricanes
      |---GlobalOceans
   |---CityData				               < -- A database that is registered (specified in Server Manager)
      |---FireData
      |---LandParcels

Cloud-Speicher

Die Registrierung einer Big-Data-Dateifreigabe vom Typ "Cloud-Speicher" erfolgt in drei Schritten.

Vorbereiten der Daten

Zur Vorbereitung Ihrer Daten auf eine Big-Data-Dateifreigabe in einem Cloud-Speicher müssen Sie die Datasets als Unterordner unter einem einzelnen übergeordneten Ordner formatieren.

Das nachfolgende Beispiel veranschaulicht, wie Ihre Daten strukturiert werden müssen. In diesem Beispiel wird der übergeordnete Ordner, FileShareFolder, der drei Datasets, Earthquakes, Hurricanes und GlobalOceans, enthält, registriert. Wenn Sie einen übergeordneten Ordner registrieren, werden auch alle Unterverzeichnisse des angegebenen Ordners beim GeoAnalytics Server registriert.

Beispiel für das Strukturieren von Daten in einem Cloud-Speicher, der als Big-Data-Dateifreigabe verwendet wird. Diese Big-Data-Datei enthält drei Datasets: "Earthquakes", "Hurricanes" und "GlobalOceans".

|---Cloud Store                          < -- The cloud store being registered
   |---Container or S3 Bucket Name       < -- The container (Azure) or bucket (Amazon) being registered as part of the cloud store
      |---FileShareFolder                < -- The parent folder that is registered as the 'folder' during cloud store registration
         |---Earthquakes                 < -- The dataset "Earthquakes", composed of 4 csvs with the same schema
            |---1960
               |---01_1960.csv
               |---02_1960.csv
            |---1961
               |---01_1961.csv
               |---02_1961.csv
         |---Hurricanes                  < -- The dataset "Hurricanes", composed of 3 shapefiles with the same schema
            |---atlantic_hur.shp
            |---pacific_hur.shp
            |---otherhurricanes.shp
         |---GlobalOceans                < -- The dataset "GlobalOceans", composed of 1 shapefile
            |---oceans.shp

Registrieren des Cloud-Speichers beim GeoAnalytics Server

Stellen Sie über ArcGIS Server eine Verbindung zu Ihrer GeoAnalytics Server-Site her, um einen Cloud-Speicher zu registrieren. Wenn Sie einen Cloud-Speicher registrieren, müssen Sie einen Namen für den Azure-Container, für den Amazon S3-Bucket bzw. für ein Azure Data Lake Store-Konto einfügen. Empfohlen wird, zusätzlich einen Ordner im Container bzw. Bucket anzugeben. Der angegebene Ordner besteht aus Unterordnern und stellt ein einzelnes Dataset dar. Jedes Dataset besteht aus sämtlichen Inhalten des Unterordners.

Registrieren des Cloud-Speichers als Big-Data-Dateifreigabe

Führen Sie die folgenden Schritte aus, um den Cloud-Speicher zu registrieren, den Sie im vorherigen Abschnitt als Big-Data-Dateifreigabe erstellt haben:

  1. Melden Sie sich über ArcGIS Server Manager bei der GeoAnalytics Server-Site an.

    Sie können sich als Publisher oder Administrator anmelden.

  2. Wechseln Sie zu Site > Data Stores, und wählen Sie Big-Data-Dateifreigabe aus der Dropdown-Liste Registrieren aus.
  3. Geben Sie im Dialogfeld Big-Data-Dateifreigabe die folgenden Informationen an:
    1. Geben Sie einen Namen für die Big-Data-Dateifreigabe ein.
    2. Wählen Sie Cloud-Speicher aus der Dropdown-Liste Typ aus.
    3. Wählen Sie den Namen des Cloud-Speichers aus der Dropdown-Liste Cloud-Speicher aus.
    4. Klicken Sie auf Erstellen, um Ihren Cloud-Speichers als Big-Data-Dateifreigabe zu speichern.

Sie verfügen nun über eine Big-Data-Dateifreigabe und ein Manifest für Ihren Cloud-Speicher. Das Big-Data-Dateifreigabeelement in Ihrem Portal verweist auf einen Big-Data-Katalogservice auf dem GeoAnalytics Server.

Registrieren der Big-Data-Dateifreigabe

Um eine Dateifreigabe, ein HDFS oder einen Hive-Cloud-Speicher als Big-Data-Dateifreigabe zu registrieren, stellen Sie eine Verbindung mit Ihrer GeoAnalytics Server-Site über ArcGIS Server Manager her. Weitere Informationen zu den notwendigen Schritten finden Sie unter Registrieren von Daten bei ArcGIS Server mit Manager in der ArcGIS Server-Hilfe.

Tipp:

Schritte zum Registrieren eines Cloud-Speichers als Big-Data-Dateifreigabe wurden im vorherigen Abschnitt erläutert.

Beim Registrieren von Big-Data-Dateifreigaben wird ein Manifest generiert, in dem das Format der Datasets am Speicherort der Freigabe sowie die Felder zur Darstellung von Geometrie und Zeit beschrieben werden. Ein Big-Data-Dateifreigabeelement wird in Ihrem Portal erstellt und verweist auf einen Big-Data-Katalog-Service auf dem GeoAnalytics Server, bei dem Sie die Daten registriert haben. Weitere Informationen zu Big-Data-Katalog-Services finden Sie in der Dokumentation zum Big-Data-Katalog-Service in der Hilfe zur ArcGIS-REST-API.

Ändern einer Big-Data-Dateifreigabe

Beim Erstellen eines Big-Data-Katalog-Service wird automatisch ein Manifest generiert und auf die GeoAnalytics Server-Site hochgeladen, bei der Sie die Daten registriert haben. Beim Generieren des Manifests werden die Felder mit Angaben zu Geometrie und Zeit gelegentlich möglicherweise nicht korrekt eingeschätzt, sodass Sie ggf. Korrekturen vornehmen müssen. Befolgen Sie zum Bearbeiten eines Manifests die Anleitungen unter Bearbeiten von Big-Data-Dateifreigaben in Manager. Weitere Informationen zu Big-Data-Dateifreigabemanifesten finden Sie unter Manifest zur Big-Data-Dateifreigabe in der ArcGIS Server-Hilfe.

Ausführen von Analysen für Big-Data-Dateifreigaben

Sie können über alle Clients, die GeoAnalytics Server unterstützen, Analysen für Datasets in Big-Data-Dateifreigaben durchführen. Hierzu gehören folgende Clients:

  • ArcGIS Pro
  • Map Viewer
  • ArcGIS-REST-API
  • ArcGIS API for Python

Wenn Sie Ihre Analyse einer Big-Data-Dateifreigabe über ArcGIS Pro oder Map Viewer durchführen möchten, dann wählen Sie das GeoAnalytics Tools, das Sie verwenden möchten, aus. Als Eingabe für das Werkzeug navigieren Sie unter Portal in ArcGIS Pro oder über das Dialogfeld Layer durchsuchen in Map Viewer zum Speicherort Ihrer Daten. Falls Sie die Daten selbst registriert haben, befinden Sie sich in Eigene Inhalte. Ansonsten finden Sie sie in Ihren Gruppen oder unter Gesamtes Portal. Beachten Sie, dass ein Big-Data-Dateifreigabe-Layer, der zur Analyse ausgewählt wurde, in der Karte nicht angezeigt wird.

Hinweis:

Stellen Sie sicher, dass Sie sich mit einem Portal-Konto angemeldet haben, das über Zugriffsberechtigungen für die registrierte Big-Data-Dateifreigabe verfügt. Suchen Sie in Ihrem Portal nach dem Suchbegriff bigDataFileShare*, um sämtliche Big-Data-Dateifreigaben, auf die Sie zugreifen können, schnell zu finden.

Verwenden Sie, um eine Analyse einer Big-Data-Dateifreigabe über die ArcGIS-REST-API durchzuführen, die URL des Big-Data-Katalog-Service als Eingabe. Sie hat das Format {"url":" https://webadaptorhost.domain.com/webadaptorname/rest/DataStoreCatalogs/bigDataFileShares_filesharename/BigDataCatalogServer/dataset"}. Bei einem Computer namens example, einer Domäne namens esri, einem Web Adaptor namens server, einer Big-Data-Dateifreigabe namens MyData und einem Dataset namens Earthquakes lautet die URL folgendermaßen: {"url":" https://example.esri.com/server/rest/DataStoreCatalogs/bigDataFileShares_MyData/BigDataCatalogServer/Earthquakes"}. Weitere Informationen zu Eingaben für Big-Data-Analysen über REST finden Sie im Thema Feature Input in der Dokumentation zur ArcGIS-REST-API.