Mise en route des partages de fichiers Big Data—Portal for ArcGIS

A propos des partages de fichiers Big Data

Un partage de fichiers Big Data est un élément créé sur votre portail qui fait référence à des données d'entité (points, polylignes, polygones ou données tabulaires) auxquelles ArcGIS GeoAnalytics Server peut accéder. L'élément de partage de fichiers Big Data sur votre portail vous permet de parcourir les données inscrites à partir des outils ArcGIS GeoAnalytics Server. Les partages de fichiers Big Data peuvent faire référence aux sources de données suivantes :

Partage de fichiers : répertoire de jeux de données sur un disque local ou un partage réseau.
HDFS : répertoire HDFS (Hadoop Distributed File System) Apache de jeux de données.
Hive : bases de données Metastore Apache Hive.
Stockage cloud : paquet Amazon Simple Storage Service (S3), conteneur Microsoft Azure Blob ou stockage Microsoft Azure Data Lake contenant un répertoire de jeux de données.
Remarque :
La prise en charge du stockage Microsoft Azure Data Lake est ajoutée dans ArcGIS Enterprise version 10.6.1.

Remarque :

Vous ne pouvez utiliser un partage de fichiers Big Data que si l’administrateur a activé GeoAnalytics Server. Pour en savoir plus sur l’activation de GeoAnalytics Server, reportez-vous à la rubrique Configurer ArcGIS GeoAnalytics Server.

L'utilisation d'un partage de fichiers Big Data commun à toutes les sources de données présente plusieurs avantages. Vous pouvez conserver vos données dans un emplacement accessible jusqu'à ce que vous soyez prêt à exécuter l'analyse. Un partage de fichiers Big Data accède aux données lors de l’exécution de l'analyse, afin que vous puissiez continuer à ajouter davantage de données à un jeu de données existant dans votre partage de fichiers Big Data sans avoir à ré-enregistrer ou à publier vos données. Vous pouvez également modifier le manifeste pour supprimer, ajouter ou mettre à jour des jeux de données du partage de fichiers Big Data. Les partages de fichiers Big Data sont extrêmement flexibles en termes de définition de l’heure et de la géométrie, et permettent plusieurs formats d’heure sur un jeu de données unique. Ils vous permettent également de partitionner vos jeux de données tout en traitant plusieurs partitions en tant que jeu de données unique.

Remarque :

Vous ne pouvez accéder aux partages de fichiers Big Data que si vous exécutez des Outils GeoAnalytics. Cela signifie que vous pouvez uniquement parcourir les fichiers Big Data et les ajouter à votre analyse ; vous ne pouvez pas visualiser les données sur une carte.

Ce sont, entre autres, via les partages de fichiers Big Data que les Outils GeoAnalytics peuvent accéder à vos données. Reportez-vous à la rubrique Utiliser les Outils GeoAnalytics dans Map Viewer pour une liste d’entrées de données Outils GeoAnalytics possible.

Les types de fichier suivants sont pris en charge en tant que jeux de données dans les partages de fichiers de données :

Fichiers délimités (tels que .csv, .tsv et .txt)
Fichiers de formes (.shp)
Fichiers Parquet (.gz.parquet)
Fichiers ORC (orc.crc)

Préparer l'inscription des données en tant que partage de fichiers Big Data

Partages de fichiers et HDFS

Pour préparer l'inscription de vos données en tant que partage de fichiers Big Data, vous devez organiser vos jeux de données dans des sous-dossiers, sous le dossier parent qui sera inscrit. Dans ce dossier parent que vous enregistrez, les noms des sous-dossiers représentent les noms de jeu de données. Si vos sous-dossiers contiennent plusieurs dossiers ou fichiers, tout le contenu des sous-dossiers de niveau supérieur sont lus comme jeu de données unique, et doit partager le même schéma. L'exemple suivant illustre l'inscription du dossier FileShareFolder contenant trois jeux de données, Earthquakes, Hurricanes et GlobalOceans. Lorsque vous inscrivez un dossier parent, tous les sous-répertoires du dossier spécifié sont également inscrits auprès de l’instance GeoAnalytics Server. Inscrivez toujours le dossier parent (par exemple, \\machinename\FileShareFolder) qui contient un ou plusieurs dossiers de jeux de données individuels.

Exemple d'un partage de fichiers Big Data contenant trois jeux de données : Earthquakes, Hurricanes et GlobalOceans.

|---FileShareFolder                 < -- The top-level folder is what is registered as a big data file share
   |---Earthquakes                  < -- A dataset "Earthquakes", composed of 4 csvs with the same schema
      |---1960
         |---01_1960.csv
         |---02_1960.csv
      |---1961
         |---01_1961.csv
         |---02_1961.csv
   |---Hurricanes                   < -- The dataset "Hurricanes", composed of 3 shapefiles with the same schema
      |---atlantic_hur.shp
      |---pacific_hur.shp
      |---otherhurricanes.shp
   |---GlobalOceans                 < -- The dataset "GlobalOceans", composed of a single shapefile
      |---oceans.shp

Cette même structure est appliquée aux partages de fichiers et HDFS, même si la terminologie change. Un partage de fichiers contient un dossier ou répertoire supérieur et les jeux de données sont représentés par les sous-répertoires. Dans HDFS, l’emplacement du partage de fichiers est inscrit et contient des jeux de données. La table suivante indique les différences :


	Partage de fichiers	HDFS
Emplacement du partage de fichiers Big Data	Dossier ou répertoire	Chemin HDFS
Jeux de données	Sous-dossiers supérieurs	Jeux de données dans le chemin HDFS

Lorsque vos données sont organisées dans un dossier contenant des sous-dossiers de jeux de données, pour permettre à votre instance GeoAnalytics Server d’accéder à vos données, suivez les étapes de la rubrique Rendre vos données accessibles pour ArcGIS Server, puis inscrivez le dossier du jeu de données.

Accès à HDFS à l’aide de Kerberos

Dans ArcGIS Enterprise version 10.6.1, GeoAnalytics Server peut accéder à HDFS à l’aide de l’authentification Kerberos.

Pour enregistrer le partage de fichiers HDFS à l’aide de l’authentification Kerberos, procédez comme suit :

Connectez-vous à votre site GeoAnalytics Server dans le répertoire administrateur ArcGIS Server.
Pour le répertoire administrateur ArcGIS Server, vous devez être connecté en tant qu'administrateur. Pour vous connecter à votre site GeoAnalytics Server fédéré, vous devez vous connecter avec un jeton de portail, ce qui nécessite les informations d'identification de l'administrateur du portail, ou en tant qu'administrateur de site principal du site GeoAnalytics Server. Si vous n'êtes pas administrateur du portail ou n'avez pas accès aux informations du compte administrateur de site principal, contactez l'administrateur de votre portail pour qu'il suive ces étapes.
Accédez à données > registerItem.
Copiez le texte suivant et collez-le dans la zone de texte Elément. Mettez à jour les valeurs suivantes :
- <bigDataFileShareName> : remplacez par le nom de votre choix pour le partage de fichiers Big Data.
- <hdfs path> : remplacez par le chemin d’accès complet du système de fichiers pour le partage de fichiers Big Data. Par exemple, hdfs://domainname:port/folder.
- <user@realm> : remplacez par l’utilisateur et le domaine du principal.
- <keytab location> : remplacez par l’emplacement du fichier keytab. Le fichier keytab doit être accessible par toutes les machines du site GeoAnalytics Server. Par exemple, //shared/keytab/hadoop.keytab.
```
{
   "path": "/bigDataFileShares/<bigDataFileShareName>",
   "type": "bigDataFileShare",
   "info": 
         {
          "connectionString": "{\"path\":\"<hdfs path>",\"accessMode\":\"Kerberos\",\"principal\":\"user@realm\",\"keytab\":\"<keytab location>\"}",
          "connectionType": "hdfs"
         }
}
  
```
Cliquez sur Inscrire l'élément.
Une fois que l’élément a été enregistré, le partage de fichiers Big Data apparaît comme stockage des données dans ArcGIS Server Manager avec un manifeste alimenté. Si le manifeste n’est pas alimenté, passez à l’étape 5.
Connectez-vous à votre site GeoAnalytics Server ArcGIS Server Manager.
Vous pouvez vous connecter en tant qu'éditeur ou administrateur.
Accédez à Site > Stockage des données et cliquez sur le bouton Régénérer le manifeste en regard de votre nouveau partage de fichiers Big Data.

Vous disposez désormais d'un partage de fichiers Big Data et d'un manifeste pour votre stockage HDFS, auquel vous accéderez via l’authentification Kerberos. L'élément de partage de fichiers Big Data pointe vers un service de catalogue Big Data sur le site GeoAnalytics Server.

Hive

Dans Hive, toutes les tables d'une base de données sont reconnues comme jeux de données dans un partage de fichiers Big Data. L'exemple suivant présente un Metastore contenant deux bases de données, default et CityData. Lorsque vous inscrivez un partage de fichiers Big Data Hive via ArcGIS Server avec votre instance GeoAnalytics Server, vous ne pouvez sélectionner qu'une base de données. Dans cet exemple, si vous sélectionnez la base de données CityData, le partage de fichiers Big Data contient deux jeux de données, à savoir FireData et LandParcels.

|---HiveMetastore                 < -- The top-level folder is what is registered as a big data file share
   |---default                    < -- A database
      |---Earthquakes
      |---Hurricanes
      |---GlobalOceans
   |---CityData				               < -- A database that is registered (specified in Server Manager)
      |---FireData
      |---LandParcels

Stockages cloud

L'inscription d'un partage de fichiers Big Data de type stockage cloud se compose de trois étapes.

Préparer vos données

Pour préparer l'inscription de vos données en tant que partage de fichiers Big Data dans un stockage cloud, vous devez organiser vos jeux de données dans des sous-dossiers, sous un seul dossier parent.

Voici un exemple de structuration des données. Cet exemple enregistre le dossier parent, FileShareFolder, qui contient trois jeux de données : Earthquakes, Hurricanes et GlobalOceans. Lorsque vous inscrivez un dossier parent, tous les sous-répertoires du dossier spécifié sont également inscrits auprès de GeoAnalytics Server.

Voici un exemple de structuration des données dans un stockage cloud qui sera utilisé comme partage de fichiers Big Data. Ce fichier Big Data contient trois jeux de données : Earthquakes, Hurricanes et GlobalOceans.

|---Cloud Store                          < -- The cloud store being registered
   |---Container or S3 Bucket Name       < -- The container (Azure) or bucket (Amazon) being registered as part of the cloud store
      |---FileShareFolder                < -- The parent folder that is registered as the 'folder' during cloud store registration
         |---Earthquakes                 < -- The dataset "Earthquakes", composed of 4 csvs with the same schema
            |---1960
               |---01_1960.csv
               |---02_1960.csv
            |---1961
               |---01_1961.csv
               |---02_1961.csv
         |---Hurricanes                  < -- The dataset "Hurricanes", composed of 3 shapefiles with the same schema
            |---atlantic_hur.shp
            |---pacific_hur.shp
            |---otherhurricanes.shp
         |---GlobalOceans                < -- The dataset "GlobalOceans", composed of 1 shapefile
            |---oceans.shp

Enregistrez le stockage cloud avec votre GeoAnalytics Server

Connectez-vous à votre site GeoAnalytics Server depuis ArcGIS Server Manager pour inscrire un stockage cloud. Lorsque vous inscrivez un stockage cloud, vous devez inclure un nom de conteneur Azure, un nom de paquet Amazon S3 ou un nom de compte de stockage Azure Data Lake. Il est recommandé de préciser en outre un dossier dans le conteneur ou le paquet. Le dossier spécifié se compose de sous-dossiers et chacun représente un jeu de données individuel. Chaque jeu de données se compose de l'intégralité du contenu du sous-dossier.

Inscrire un stockage cloud en tant que partage de fichiers Big Data

Procédez comme suit pour inscrire le stockage cloud que vous avez créé au cours de la section précédente en tant que partage de fichiers Big Data :

Connectez-vous à votre site GeoAnalytics Server dans ArcGIS Server Manager.
Vous pouvez vous connecter en tant qu'éditeur ou administrateur.
Accédez à Site > Stockage des données et choisissez Partage de fichiers Big Data dans la liste déroulante Inscrire.
Fournissez les informations suivantes dans la boîte de dialogue Inscrire le partage de fichiers Big Data :
1. Attribuez un nom au partage de fichiers Big Data.
2. Choisissez Stockage cloud dans la liste déroulante Type.
3. Choisissez le nom de votre stockage cloud depuis la liste déroulante Stockage cloud.
4. Cliquez sur Créer pour inscrire votre stockage cloud en tant que partage de fichiers Big Data

Vous avez désormais un partage de fichiers Big Data et un manifeste pour votre stockage cloud. L'élément de partage de fichiers Big Data pointe vers un service de catalogue Big Data sur le site GeoAnalytics Server.

Inscrire votre partage de fichiers Big Data

Pour inscrire un partage de fichiers, un stockage cloud HDFS ou Hive, en tant que partage de fichiers Big Data, connectez-vous à votre site GeoAnalytics Server via ArcGIS Server Manager. Reportez-vous à la rubrique Inscrire vos données auprès d'ArcGIS Server à l’aide du gestionnaire dans l’aide d’ArcGIS Server pour connaître les étapes à suivre.

Astuce:

Les étapes d'inscription d'un stockage Cloud en tant que partage de fichiers Big Data ont été décrites dans la section précédente.

Lorsqu'un partage de fichiers Big Data est inscrit, un manifeste est généré pour décrire la structure des jeux de données dans votre emplacement de partage, y compris les champs représentant la géométrie et l'heure. Un élément de partage de fichiers Big Data pointant vers un service de catalogue Big Data est créé sur votre portail, sur le site GeoAnalytics Server où vous avez inscrit les données. Pour en savoir plus sur les services de catalogue Big Data, consultez la documentation Service de catalogue Big Data dans l'aide de l'API REST d'ArcGIS Server.

Modifier un partage de fichiers Big Data

Lorsqu'un service de catalogue Big Data est créé, un manifeste est automatiquement généré et téléchargé sur le site GeoAnalytics Server où vous avez inscrit les données. Lors de la génération d'un manifeste, les champs représentant la géométrie et l’heure ne sont pas toujours évalués correctement et vous devrez peut-être les modifier. Pour modifier un manifeste, suivez les étapes de la rubrique Mettre à jour les manifestes de partage de fichiers Big Data dans le gestionnaire. Pour en savoir plus sur le manifeste de partage de fichiers Big Data, reportez-vous à la rubrique Présentation d'un manifeste de partage de fichiers Big Data dans l’aide d’ArcGIS Server.

Analyse d'un partage de fichiers Big Data

Vous pouvez exécuter une analyse sur un jeu de données dans un partage de fichiers Big Data à l'aide d'un client prenant en charge GeoAnalytics Server, à savoir l’un des suivants :

ArcGIS Pro
Map Viewer
API REST ArcGIS
ArcGIS API for Python

Pour exécuter votre analyse sur un fichier Big Data via ArcGIS Pro ou Map Viewer, sélectionnez l’Outils GeoAnalytics que vous souhaitez utiliser. Pour l’entrée dans l’outil, accédez à l’emplacement de vos données sous Portal (Portail) dans ArcGIS Pro ou sur la boîte de dialogue Browse Layers (Parcourir les couches) dans Map Viewer. Les données se trouvent dans Mon contenu si vous les avez vous-même inscrites. Sinon, recherchez dans Groupes ou L’intégralité du portail. La couche de partage de fichiers Big Data sélectionnée en vue d'être analysée ne s'affiche pas sur la carte.

Remarque :

Vérifiez que vous êtes connecté à un compte de portail qui peut accéder au partage de fichiers Big Data inscrit. Vous pouvez effectuer une recherche sur votre portail en utilisant le terme bigDataFileShare* pour trouver rapidement tous les partages de fichiers Big Data auxquels vous avez accès.

Pour exécuter l'analyse sur un partage de fichiers Big Data via l'API REST d'ArcGIS, utilisez l'URL du service de catalogue Big Data en entrée. L'URL est au format {"url":" https://webadaptorhost.domain.com/webadaptorname/rest/DataStoreCatalogs/bigDataFileShares_filesharename/BigDataCatalogServer/dataset"}. Par exemple, si la machine s'appelle example, le domaine esri, l'adaptateur Web server, le partage de fichiers Big Data MyData et le jeu de données Earthquakes, l'URL a le format suivant : {"url":" https://example.esri.com/server/rest/DataStoreCatalogs/bigDataFileShares_MyData/BigDataCatalogServer/Earthquakes"}. Pour en savoir plus sur les données à entrer dans le cadre d'une analyse de Big Data via REST, reportez-vous à la rubrique Entrée d'entités dans la documentation de l'API REST d'ArcGIS Server.

Vous avez un commentaire à formuler concernant cette rubrique ?