Mise en route des partages de fichiers Big Data—ArcGIS GeoAnalytics Server

A propos des partages de fichiers Big Data

Un partage de fichiers Big Data est un élément créé sur votre portail qui fait référence à un emplacement disponible sur votre instance ArcGIS GeoAnalytics Server. L’emplacement du partage de fichiers Big Data peut être utilisé comme entrée et sortie pour les données d’entités (points, polylignes, polygones et tables) des outils GeoAnalytics. Lorsque vous créez un partage de fichiers Big Data, un élément est créé dans votre portail. L’élément pointe vers un service de catalogue Big Data, ce qui indique les jeux de données dans le partage de fichiers Big Data et leur schéma (informations de géométrie et de temps incluses) et les formats de sortie, appelés modèles, que vous avez inscrits. Lors de l’utilisation d’un partage de fichiers Big Data en guise d’entrée d’un outil ArcGIS GeoAnalytics Server, vous pouvez accéder à l’élément pour exécuter l’analyse sur un jeu de données.

Il y a plusieurs avantages à utiliser un partage de fichiers Big Data. Vous pouvez conserver vos données dans un emplacement accessible jusqu'à ce que vous soyez prêt à exécuter l'analyse. Un partage de fichiers Big Data accède aux données lors de l’exécution de l’analyse, afin que vous puissiez continuer à ajouter davantage de données à un jeu de données existant dans votre partage de fichiers Big Data sans avoir à réinscrire ou à publier vos données. Vous pouvez également modifier le manifeste pour supprimer, ajouter ou mettre à jour des jeux de données du partage de fichiers Big Data. Les partages de fichiers Big Data sont extrêmement flexibles en termes de définition de l’heure et de la géométrie, et permettent plusieurs formats d’heure sur un jeu de données unique. Ils vous permettent également de partitionner vos jeux de données tout en traitant plusieurs partitions en tant que jeu de données unique. L’utilisation de partages de fichiers Big Data pour les données en sortie permet de stocker vos résultats dans des formats utilisables par d’autres processus, comme un fichier parquet, en vue d’une analyse ou d’un stockage ultérieur.

Remarque :

Vous ne pouvez accéder aux partages de fichiers Big Data que si vous exécutez des GeoAnalytics Tools. Cela signifie que vous pouvez uniquement parcourir les fichiers Big Data et les ajouter à votre analyse ; vous ne pouvez pas visualiser les données sur une carte.

Les partages de fichiers Big Data peuvent faire référence aux sources de données en entrée suivantes :

Partage de fichiers : répertoire de jeux de données sur un disque local ou un partage réseau.
Apache Hadoop Distributed File System (HDFS) : répertoire HDFS de jeux de données.
Apache Hive : base de données Metastore Hive.
Répertoire cloud : paquet Amazon Simple Storage Service (S3), conteneur Blob Microsoft Azure ou stockage Microsoft Azure Data Lake contenant un répertoire de jeux de données.

Lors de l’écriture de résultats dans un partage de fichiers Big Data, vous pouvez utiliser la sortie suivante de l’outil GeoAnalytics Tools :

Partage de fichiers
HDFS
Répertoire cloud

Les types de fichier suivants sont pris en charge en tant que jeux de données pour l’entrée et la sortie dans les partages de fichiers de données :

Fichiers délimités (tels que .csv, .tsv et .txt)
Shapefiles (.shp)
Fichiers Parquet (.gz.parquet)
Fichiers ORC (orc.crc)

Remarque :

Vous ne pouvez utiliser un partage de fichiers Big Data que si l’administrateur du portail a activé GeoAnalytics Server. Pour en savoir plus sur l’activation de GeoAnalytics Server, reportez-vous à la rubrique Configurer ArcGIS GeoAnalytics Server.

Les partages de fichiers Big Data constituent l’une des différentes façons dont les GeoAnalytics Tools peuvent accéder à vos données et ne sont pas requis pour GeoAnalytics Tools. Consultez Utiliser les GeoAnalytics Tools dans Map Viewer pour obtenir la liste des entrées de données des GeoAnalytics Tools et des sorties possibles.

Vous pouvez enregistrer autant de partages de fichiers Big Data que vous en avez besoin. Chaque partage de fichiers Big Data peut avoir autant de jeux de données que vous souhaitez.

La table ci-dessous souligne certains termes importants lorsqu'il est question d'aborder les partages de fichiers Big Data.


Période	Description
Partage de fichiers Big Data	Emplacement inscrit auprès de votre instance GeoAnalytics Server à utiliser comme entrée ou comme sortie de jeu de données, ou bien à la fois comme entrée et comme sortie des GeoAnalytics Tools.
Service de catalogue Big Data	Service qui désigne les jeux de données en entrée et les schémas et les noms de modèle en sortie de votre partage de fichiers Big Data. Il est créé lors de l’enregistrement de votre partage de fichiers Big Data et lors de la création de votre manifeste. Pour en savoir plus sur les services de catalogue Big Data, consultez la documentation Service de catalogue Big Data dans l'aide de l'API REST d'ArcGIS Server.
Élément du partage de fichiers Big Data	Élément de votre portail qui fait référence au service de catalogue Big Data. Vous pouvez contrôler qui peut utiliser votre partage de fichiers Big Data comme entrée vers GeoAnalytics en partageant cet élément dans le portail.
Manifeste	Un fichier JSON souligne les jeux de données disponibles et le schéma pour les entrées dans votre partage de fichiers Big Data. Le manifeste est généré automatiquement lorsque vous inscrivez un partage de fichiers Big Data et peut être modifié lors de la mise à jour ou de l'utilisation d'un fichier d’astuces. Un seul partage de fichiers Big Data possède un manifeste.
Modèles en sortie	Un ou plusieurs modèles qui indiquent le type de fichier et la mise en page facultative lors de l’écriture de résultats vers un partage de fichiers Big Data. Par exemple, un modèle pourrait préciser que les résultats écrivent vers un fichier de forme. Un partage de fichiers Big Data peut avoir aucun, un ou plusieurs modèles en sortie.
Type de partage de fichiers Big Data	Le type d’emplacements que vous inscrivez. Par exemple, vous pourriez avoir un partage de fichiers Big Data ou saisir HDFS.
Format de jeu de données de partage de fichiers Big Data	Format des données que vous lisez ou écrivez. Par exemple, le type de fichier peut être un fichier de forme.
Fichier d'astuces	Un fichier facultatif qui peut être utilisé pour contribuer à générer un manifeste pour les fichiers délimités utilisés en tant qu’entrée.

Préparer l'inscription des données en tant que partage de fichiers Big Data

Pour utiliser vos jeux de données en tant qu’entrées dans un partage de fichiers Big Data, vous devez veiller à ce que vos données soient correctement mises en page. Consultez la rubrique ci-dessous pour la mise en page selon le type de partage de fichiers Big Data.

Partages de fichiers et HDFS

Pour préparer l'inscription de vos données en tant que partage de fichiers Big Data, vous devez organiser vos jeux de données dans des sous-dossiers, sous le dossier parent qui sera inscrit. Dans ce dossier parent que vous enregistrez, les noms des sous-dossiers représentent les noms de jeu de données. Si vos sous-dossiers contiennent plusieurs dossiers ou fichiers, tout le contenu des sous-dossiers de niveau supérieur sont lus comme jeu de données unique, et doit partager le même schéma. L’exemple suivant illustre l’inscription du dossier FileShareFolder contenant trois jeux de données : Earthquakes, Hurricanes et GlobalOceans. Lorsque vous inscrivez un dossier parent, tous les sous-répertoires du dossier spécifié sont également inscrits auprès de l’instance GeoAnalytics Server. Inscrivez toujours le dossier parent (par exemple, \\machinename\FileShareFolder) qui contient un ou plusieurs dossiers de jeux de données individuels.

Exemple d'un partage de fichiers Big Data contenant trois jeux de données : Earthquakes, Hurricanes et GlobalOceans.

|---FileShareFolder                 < -- The top-level folder is what is registered as a big data file share
   |---Earthquakes                  < -- A dataset "Earthquakes", composed of 4 csvs with the same schema
      |---1960
         |---01_1960.csv
         |---02_1960.csv
      |---1961
         |---01_1961.csv
         |---02_1961.csv
   |---Hurricanes                   < -- The dataset "Hurricanes", composed of 3 shapefiles with the same schema
      |---atlantic_hur.shp
      |---pacific_hur.shp
      |---otherhurricanes.shp
   |---GlobalOceans                 < -- The dataset "GlobalOceans", composed of a single shapefile
      |---oceans.shp

Bien que la terminologie diffère, la même structure est appliquée aux partages de fichiers et à HDFS. Un partage de fichiers contient un dossier ou répertoire supérieur et les jeux de données sont représentés par les sous-répertoires. Dans HDFS, l’emplacement du partage de fichiers est inscrit et contient des jeux de données. La table suivante indique les différences :


	Partage de fichiers	HDFS
Emplacement du partage de fichiers Big Data	Dossier ou répertoire	Chemin HDFS
Jeux de données	Sous-dossiers supérieurs	Jeux de données dans le chemin HDFS

Lorsque vos données sont organisées dans un dossier contenant des sous-dossiers de jeux de données, pour permettre à votre instance GeoAnalytics Server d’accéder à vos données, suivez les étapes de la rubrique Rendre vos données accessibles pour ArcGIS Server, puis inscrivez le dossier du jeu de données.

Accès à HDFS à l’aide de Kerberos

GeoAnalytics Server peut accéder à HDFS à l’aide de l’authentification Kerberos.

Remarque :

GeoAnalytics Server est compatible avec la protection RCP définie pour l’authentification (hadoop.rpc.protection =authentication). GeoAnalytics Server n’est actuellement pas compatible avec les modes Intégrité (integrity) ou Confidentialité (privacy).

Pour inscrire le partage de fichiers HDFS à l’aide de l’authentification Kerberos, procédez comme suit :

Sous Windows, copiez le fichier krb.ini dans C:/windows/krb.ini sur toutes les machines de votre site GeoAnalytics Server. Sous Linux, copiez le fichier krb.conf dans /etc/krb.conf sur toutes les machines de votre site GeoAnalytics Server.
Connectez-vous à votre site GeoAnalytics Server à partir d’ArcGIS Server Administrator Directory.
Pour ArcGIS Server Administrator Directory, vous devez être connecté en tant qu’administrateur. Pour vous connecter à votre site GeoAnalytics Server fédéré, vous devez vous connecter avec un jeton de portail, ce qui nécessite les identifiants de connexion de l’administrateur du portail, ou en tant qu’administrateur de site principal du site GeoAnalytics Server. Si vous n'êtes pas administrateur du portail ou n'avez pas accès aux informations du compte administrateur de site principal, contactez l'administrateur de votre portail pour qu'il suive ces étapes.
Accédez à données > registerItem.
Copiez le texte suivant et collez-le dans la zone de texte Elément. Mettez à jour les valeurs suivantes :
- <bigDataFileShareName> : remplacez par le nom de votre choix pour le partage de fichiers Big Data.
- <hdfs path> : remplacez par le chemin d’accès complet du système de fichiers pour le partage de fichiers Big Data. Par exemple, hdfs://domainname:port/folder.
- <user@realm> : remplacez par l’utilisateur et domaine du principal.
- <keytab location> : remplacez par l’emplacement du fichier keytab. Le fichier keytab doit être accessible à toutes les machines du site GeoAnalytics Server. Par exemple, //shared/keytab/hadoop.keytab.
```
{
   "path": "/bigDataFileShares/<bigDataFileShareName>",
   "type": "bigDataFileShare",
   "info": 
         {
          "connectionString": "{\"path\":\"<hdfs path>",\"accessMode\":\"Kerberos\",\"principal\":\"user@realm\",\"keytab\":\"<keytab location>\"}",
          "connectionType": "hdfs"
         }
}
  
```
Cliquez sur Inscrire l'élément.
Une fois l’élément inscrit, le partage de fichiers Big Data apparaît en tant que Data Store dans ArcGIS Server Manager avec un manifeste alimenté. Si le manifeste n’est pas alimenté, passez à l’étape 5.
Connectez-vous à votre site GeoAnalytics Server à partir d’ArcGIS Server Manager.
Vous pouvez vous connecter en tant qu'éditeur ou administrateur.
Accédez à Site > Stockage des données et cliquez sur le bouton Régénérer le manifeste en regard de votre nouveau partage de fichiers Big Data.

Vous disposez désormais d’un partage de fichiers Big Data et d’un manifeste pour votre répertoire HDFS, auquel vous accéderez via l’authentification Kerberos. Sur votre portail, l’élément de partage de fichiers Big Data pointe vers un service de catalogue Big Data sur le site GeoAnalytics Server.

Hive

Remarque :

GeoAnalytics Server utilise Spark 3.0.1. La version de Hive doit être la version 2.3.7 ou 3.0.0–3.1.2.

Si vous essayez d’inscrire un fichier Big Data auprès d’une version de Hive différente de la version nécessaire, l’inscription du partage de fichiers Big Data échoue. Le cas échéant, redémarrez la boîte d’outils GeoAnalyticsManagement dans ArcGIS Server Administrator Directory > services > System > GeoAnalyticsManagement> stop. Répétez les étapes pour démarrer.

Dans Hive, toutes les tables d’une base de données sont reconnues comme jeux de données dans un partage de fichiers Big Data. L’exemple suivant présente un Metastore contenant deux bases de données, default et CityData. Lorsque vous inscrivez un partage de fichiers Big Data Hive via ArcGIS Server avec votre instance GeoAnalytics Server, vous ne pouvez sélectionner qu’une seule base de données. Dans cet exemple, si vous sélectionnez la base de données CityData, le partage de fichiers Big Data contient deux jeux de données, à savoir FireData et LandParcels.

|---HiveMetastore                 < -- The top-level folder is what is registered as a big data file share
   |---default                    < -- A database
      |---Earthquakes
      |---Hurricanes
      |---GlobalOceans
   |---CityData				               < -- A database that is registered (specified in Server Manager)
      |---FireData
      |---LandParcels

Répertoires cloud

L'inscription d'un partage de fichiers Big Data de type stockage cloud se compose de trois étapes.

Préparer vos données

Pour préparer l'inscription de vos données en tant que partage de fichiers Big Data dans un stockage cloud, vous devez organiser vos jeux de données dans des sous-dossiers, sous un seul dossier parent.

Voici un exemple de structuration des données. Cet exemple inscrit le dossier parent, FileShareFolder, qui contient trois jeux de données : Earthquakes, Hurricanes et GlobalOceans. Lorsque vous inscrivez un dossier parent, tous les sous-répertoires du dossier spécifié sont également inscrits auprès de l’instance GeoAnalytics Server.

Voici un exemple de structuration des données dans un stockage cloud qui sera utilisé comme partage de fichiers Big Data. Ce fichier Big Data contient trois jeux de données : Earthquakes, Hurricanes et GlobalOceans.

|---Cloud Store                          < -- The cloud store being registered
   |---Container or S3 Bucket Name       < -- The container (Azure) or bucket (Amazon) being registered as part of the cloud store
      |---FileShareFolder                < -- The parent folder that is registered as the 'folder' during cloud store registration
         |---Earthquakes                 < -- The dataset "Earthquakes", composed of 4 csvs with the same schema
            |---1960
               |---01_1960.csv
               |---02_1960.csv
            |---1961
               |---01_1961.csv
               |---02_1961.csv
         |---Hurricanes                  < -- The dataset "Hurricanes", composed of 3 shapefiles with the same schema
            |---atlantic_hur.shp
            |---pacific_hur.shp
            |---otherhurricanes.shp
         |---GlobalOceans                < -- The dataset "GlobalOceans", composed of 1 shapefile
            |---oceans.shp

Inscrivez le répertoire cloud auprès de votre instance GeoAnalytics Server.

Connectez-vous à votre site GeoAnalytics Server à partir d’ArcGIS Server pour inscrire un répertoire cloud. Lorsque vous inscrivez un répertoire cloud, vous devez inclure un nom de conteneur Azure, un nom de paquet Amazon S3 ou un nom de compte de stockage Azure Data Lake. Il est recommandé de préciser en outre un dossier dans le conteneur ou le paquet. Le dossier spécifié se compose de sous-dossiers et chacun représente un jeu de données individuel. Chaque jeu de données se compose de l'intégralité du contenu du sous-dossier.

Inscrire un stockage cloud en tant que partage de fichiers Big Data

Procédez comme suit pour inscrire le stockage cloud que vous avez créé au cours de la section précédente en tant que partage de fichiers Big Data :

Connectez-vous à votre site GeoAnalytics Server à partir d’ArcGIS Server Manager.
Vous pouvez vous connecter en tant qu'éditeur ou administrateur.
Accédez à Site > Stockage des données et choisissez Partage de fichiers Big Data dans la liste déroulante Inscrire.
Fournissez les informations suivantes dans la boîte de dialogue Inscrire le partage de fichiers Big Data :
1. Attribuez un nom au partage de fichiers Big Data.
2. Choisissez Stockage cloud dans la liste déroulante Type.
3. Choisissez le nom de votre stockage cloud depuis la liste déroulante Stockage cloud.
4. Cliquez sur Créer pour inscrire votre stockage cloud en tant que partage de fichiers Big Data

Vous avez désormais un partage de fichiers Big Data et un manifeste pour votre stockage cloud. Sur votre portail, l’élément de partage de fichiers Big Data pointe vers un service de catalogue Big Data sur le site GeoAnalytics Server.

Inscrire votre partage de fichiers Big Data

Pour inscrire un partage de fichiers, un répertoire HDFS ou un répertoire cloud Hive en tant que partage de fichiers Big Data, connectez-vous à votre site GeoAnalytics Server à partir d’ArcGIS Server Manager. Reportez-vous à la rubrique Inscrire vos données auprès d’ArcGIS Server à l’aide de Manager dans l’aide d’ArcGIS Server pour connaître les étapes à suivre.

Conseil :

Les étapes d'inscription d'un stockage Cloud en tant que partage de fichiers Big Data ont été décrites dans la section précédente.

Lorsqu'un partage de fichiers Big Data est inscrit, un manifeste est généré pour décrire la structure des jeux de données dans votre emplacement de partage, y compris les champs représentant la géométrie et l'heure. Si vous décidez d’inscrire votre partage de fichiers Big Data comme emplacement en sortie, un manifeste de modèle en sortie est également généré. Un élément de partage de fichiers Big Data pointant vers un service de catalogue Big Data est créé sur votre portail, sur le site GeoAnalytics Server où vous avez inscrit les données. Pour en savoir plus sur les services de catalogue Big Data, consultez la documentation Service de catalogue Big Data dans l'aide de l'API REST d'ArcGIS Server.

Modifier un partage de fichiers Big Data

Lorsqu’un service de catalogue Big Data est créé, un manifeste pour les données en entrée est automatiquement généré et téléchargé sur le site GeoAnalytics Server où vous avez inscrit les données. Lors de la génération d'un manifeste, les champs représentant la géométrie et l’heure ne sont pas toujours évalués correctement et vous devrez peut-être les modifier. Pour modifier un manifeste, suivez les étapes de la rubrique Mettre à jour les manifestes de partage de fichiers Big Data dans le gestionnaire. Pour en savoir plus sur le manifeste de partage de fichiers Big Data, reportez-vous à la rubrique Présentation d’un manifeste de partage de fichiers Big Data dans l’aide d’ArcGIS Server.

Modifier les modèles en sortie pour un partage de fichiers Big Data

Si vous décidez d’utiliser votre partage de fichiers Big Data comme emplacement en sortie, les modèles en sortie sont automatiquement générés. Ces modèles mettent en avant la mise en page des résultats de l’analyse en sortie, comme le type de fichier, et la manière dont l’heure et la géométrie seront enregistrés. Si vous souhaitez modifier la mise en forme de la géométrie ou de l’heure, ou ajouter ou supprimer des modèles, vous pouvez modifier les modèles. Pour modifier les modèles en sortie, suivez les étapes de la rubrique Mettre à jour les manifestes de partage de fichiers Big Data dans le gestionnaire. Pour en savoir plus sur les modèles en sortie, reportez-vous à la rubrique Modèles en sortie dans les partages de fichiers Big Data.

Analyse d'un partage de fichiers Big Data

Vous pouvez exécuter une analyse sur un jeu de données dans un partage de fichiers Big Data à l’aide d’un client prenant en charge GeoAnalytics Server, à savoir l’un des suivants :

ArcGIS Pro
Map Viewer
API REST ArcGIS
ArcGIS API for Python

Pour exécuter votre analyse sur un partage de fichiers Big Data via ArcGIS Pro ou Map Viewer, sélectionnez l’outil GeoAnalytics Tools que vous souhaitez utiliser. Pour sélectionner les données à entrer dans l’outil, accédez à l’emplacement de vos données sous Portal (Portail) dans ArcGIS Pro ou ouvrez la boîte de dialogue Browse Layers (Rechercher des couches) dans Map Viewer. Les données se trouvent dans Mon contenu si vous les avez vous-même inscrites. Sinon, recherchez dans Groupes ou L’intégralité du portail. La couche de partage de fichiers Big Data sélectionnée en vue d'être analysée ne s'affiche pas sur la carte.

Remarque :

Vérifiez que vous êtes connecté à un compte de portail qui peut accéder au partage de fichiers Big Data inscrit. Vous pouvez effectuer une recherche sur votre portail en utilisant le terme bigDataFileShare* pour trouver rapidement tous les partages de fichiers Big Data auxquels vous avez accès.

Pour exécuter l'analyse sur un partage de fichiers Big Data via l'API REST d'ArcGIS, utilisez l'URL du service de catalogue Big Data en entrée. L’URL est au format {"url":" https://webadaptorhost.domain.com/webadaptorname/rest/DataStoreCatalogs/bigDataFileShares_filesharename/BigDataCatalogServer/dataset"}. Par exemple, si la machine s’appelle example, le domaine esri, le Web Adaptor server, le partage de fichiers Big Data MyData et le jeu de données Earthquakes, l’URL a le format suivant : {"url":" https://example.esri.com/server/rest/DataStoreCatalogs/bigDataFileShares_MyData/BigDataCatalogServer/Earthquakes"}. Pour en savoir plus sur les données à entrer dans le cadre d'une analyse de Big Data via REST, reportez-vous à la rubrique Entrée d'entités dans la documentation de l'API REST d'ArcGIS Server.

Enregistrer les résultats dans un partage de fichiers Big Data

Vous pouvez exécuter l’analyse sur un jeu de données (partage de fichiers Big Data ou autre entrée) et enregistrer les résultats dans un partage de fichiers Big Data. Lorsque vous enregistrez les résultats vers un partage de fichiers Big Data, vous n’êtes pas en mesure de les visualiser. Vous pouvez y parvenir via les clients suivants :

Map Viewer
API REST ArcGIS
ArcGIS API for Python

Lorsque vous écrivez des résultats vers un partage de fichiers Big Data, le manifeste en entrée est mis à jour pour inclure le jeu de données que vous venez d’enregistrer. Les résultats que vous avez écrit vers le partage de fichiers Big Data sont désormais disponibles en tant qu’entrée pour l’exécution d’un autre outil.

Vous avez un commentaire à formuler concernant cette rubrique ?