Présentation d'un partage de fichiers Big Data—Documentation

A propos des partages de fichiers Big Data

Un partage de fichiers Big Data est un élément créé sur votre portail qui fait référence à des données d'entité (points, polylignes, polygones ou données tabulaires) auxquelles ArcGIS GeoAnalytics Server peut accéder. L'élément de partage de fichiers Big Data sur votre portail vous permet de parcourir les données inscrites à partir des outils ArcGIS GeoAnalytics Server. Les partages de fichiers Big Data peuvent faire référence aux sources de données suivantes :

Partage de fichiers : répertoire de jeux de données sur un disque local ou un partage réseau.
HDFS : répertoire HDFS (Hadoop Distributed File System) de jeux de données.
Hive : bases de données Metastore.
Stockage cloud : paquet Amazon Web Services (AWS) Simple Storage Service (S3) ou conteneur d’objets blob Microsoft Azure contenant un répertoire de jeux de données. Les stockages cloud sont disponibles à partir de la version 10.5.1 d’ArcGIS.

Remarque :

Vous ne pouvez utiliser un partage de fichiers Big Data que si l’administrateur a activé GeoAnalytics Server. Pour en savoir plus sur l’activation de GeoAnalytics Server, reportez-vous à la rubrique Configurer ArcGIS GeoAnalytics Server.

L'utilisation d'un partage de fichiers Big Data commun à toutes les sources de données présente plusieurs avantages. Vous pouvez conserver vos données à l'emplacement de votre choix jusqu'à ce que vous soyez prêt à les analyser. Un partage de fichiers Big Data accède aux données pendant l'analyse, si bien que vous pouvez continuer à ajouter des données d'un jeu à votre partage de fichiers Big Data sans devoir les réinscrire ou les publier. Vous pouvez également modifier le manifeste pour supprimer, ajouter ou mettre à jour des jeux de données du partage de fichiers Big Data. Les partages de fichiers Big Data permettent de définir facilement l'heure et la géométrie et acceptent plusieurs formats d'heure dans un jeu de données unique. Ils vous permettent également de partitionner vos jeux de données tout en traitant plusieurs partitions en tant que jeu de données unique.

Remarque :

Vous ne pouvez accéder aux partages de fichiers Big Data que si vous exécutez des GeoAnalytics Tools. Cela signifie que vous pouvez uniquement parcourir les fichiers Big Data et les ajouter à votre analyse ; vous ne pouvez pas visualiser les données sur une carte.

Ce sont, entre autres, via les partages de fichiers Big Data que les GeoAnalytics Tools peuvent accéder à vos données. Reportez-vous à la rubrique Utiliser les GeoAnalytics Tools dans la visionneuse de carte du portail pour obtenir une liste des données acceptées en entrée par les GeoAnalytics Tools.

Préparer l'inscription des données en tant que partage de fichiers Big Data

Partages de fichiers et HDFS

Pour préparer l'inscription de vos données en tant que partage de fichiers Big Data, vous devez formater vos jeux de données en tant que sous-dossiers, sous le dossier parent qui sera inscrit. Dans ce dossier parent que vous inscrivez, les noms des sous-dossiers représentent les noms des jeux de données. Si vos sous-dossiers contiennent plusieurs dossiers ou fichiers, le contenu des sous-dossiers de niveau supérieur est lu en tant que jeu de données unique. L'exemple suivant illustre l'inscription du dossier FileShareFolder contenant trois jeux de données, Earthquakes, Hurricanes et GlobalOceans. Lorsque vous inscrivez un dossier parent, tous les sous-répertoires du dossier spécifié sont également inscrits auprès de l’instance GeoAnalytics Server. Inscrivez toujours le dossier parent (par exemple, \\machinename\FileShareFolder) qui contient un ou plusieurs dossiers de jeux de données individuels.

Exemple d'un partage de fichiers Big Data contenant trois jeux de données : Earthquakes, Hurricanes et GlobalOceans.

|---FileShareFolder                 < -- The top-level folder is what is registered as a big data file share
   |---Earthquakes                  < -- A dataset is all files and folders within the top-level subfolder
      |---1960
         |---01_1960.csv
         |---02_1960.csv
      |---1961
         |---01_1961.csv
         |---02_1961.csv
   |---Hurricanes
      |---atlantic_hur.shp
      |---pacific_hur.shp
      |---otherhurricanes.shp
   |---GlobalOceans
      |---oceans.shp

Bien que la terminologie diffère, la même structure est appliquée aux partages de fichiers et à HDFS. Un partage de fichiers contient un dossier ou répertoire supérieur et les jeux de données sont représentés par les sous-répertoires. Dans HDFS, l’emplacement du partage de fichiers est inscrit et contient des jeux de données. La table suivante indique les différences :

	Partage de fichiers	HDFS
Emplacement du partage de fichiers Big Data	Dossier ou répertoire	Chemin HDFS
Jeux de données	Sous-dossiers supérieurs	Jeux de données dans le chemin HDFS

Lorsque vos données sont organisées dans un dossier contenant des sous-dossiers de jeux de données, pour permettre à votre instance GeoAnalytics Server d’accéder à vos données, suivez les étapes de la rubrique Rendre vos données accessibles pour ArcGIS Server, puis inscrivez le dossier du jeu de données.

Hive

Dans Hive, toutes les tables d'une base de données sont reconnues comme jeux de données dans un partage de fichiers Big Data. L'exemple suivant présente un Metastore contenant deux bases de données, default et CityData. Lorsque vous inscrivez un partage de fichiers Big Data Hive via ArcGIS Server avec votre instance GeoAnalytics Server, vous ne pouvez sélectionner qu'une base de données. Dans cet exemple, si vous sélectionnez la base de données CityData, le partage de fichiers Big Data contient deux jeux de données, à savoir FireData et LandParcels.

|---HiveMetastore                 < -- The top-level folder is what is registered as a big data file share   |---default                    < -- A database      |---Earthquakes      |---Hurricanes      |---GlobalOceans   |---CityData				               < -- A database that is registered (specified in Server Manager)      |---FireData      |---LandParcels

Stockages cloud

L'inscription d'un partage de fichiers Big Data de type stockage cloud se compose de trois étapes.

Préparer vos données

Pour préparer l'inscription de vos données en tant que partage de fichiers Big Data dans un stockage cloud, vous devez organiser vos jeux de données dans des sous-dossiers, sous un seul dossier parent.

Voici un exemple de structuration des données. Cet exemple inscrit le dossier parent, FileShareFolder, qui contient trois jeux de données : Earthquakes, Hurricanes et GlobalOceans. Lorsque vous inscrivez un dossier parent, tous les sous-répertoires du dossier spécifié sont également inscrits auprès de GeoAnalytics Server.

Voici un exemple de structuration des données dans un stockage cloud qui sera utilisé comme partage de fichiers Big Data. Ce fichier Big Data contient trois jeux de données : Earthquakes, Hurricanes et GlobalOceans.

|---Cloud Store                          < -- The cloud store being registered
   |---Container or S3 Bucket Name       < -- The container (Azure) or bucket (Amazon) being registered as part of the cloud store
      |---FileShareFolder                < -- The parent folder that is registered as the 'folder' during cloud store registration
         |---Earthquakes                 < -- The dataset "Earthquakes" composed of 4 csvs
            |---1960
               |---01_1960.csv
               |---02_1960.csv
            |---1961
               |---01_1961.csv
               |---02_1961.csv
         |---Hurricanes                  < -- The dataset "Hurricanes" composed of 3 shapefiles
            |---atlantic_hur.shp
            |---pacific_hur.shp
            |---otherhurricanes.shp
         |---GlobalOceans                < -- The dataset "GlobalOceans" composed of 1 shapefile
            |---oceans.shp

Inscrivez le stockage cloud sur votre GeoAnalytics Server.

Connectez-vous à votre site GeoAnalytics Server depuis ArcGIS Server Manager pour inscrire un stockage cloud. Lorsque vous inscrivez un stockage cloud, vous devez inclure un nom de conteneur Azure ou un nom de paquet AWS S3, ainsi qu'un dossier au sein du conteneur ou du paquet. Le dossier spécifié se compose de sous-dossiers et chacun représente un jeu de données individuel. Chaque jeu de données se compose de l'intégralité du contenu du sous-dossier.

Inscrire un stockage cloud en tant que partage de fichiers Big Data

Le mode d'inscription du stockage cloud en tant que fichier Big Data dépend du stockage cloud que vous utilisez.

Procédez comme suit pour inscrire le stockage cloud AWS S3 que vous avez créé au cours de la section précédente en tant que partage de fichiers Big Data :

Connectez-vous à votre site GeoAnalytics Server dans ArcGIS Server Manager.
Vous pouvez vous connecter en tant qu'éditeur ou administrateur.
Remarque :
Dans GeoAnalytics Server 10.5.1, vous ne pouvez pas inscrire de stockage cloud AWS en spécifiant des informations d’identification IAM.
Accédez à Site > Stockage des données et choisissez Partage de fichiers Big Data dans la liste déroulante Inscrire.
Fournissez les informations suivantes dans la boîte de dialogue Inscrire le partage de fichiers Big Data :
1. Attribuez un nom au partage de fichiers Big Data.
2. Choisissez Stockage cloud dans la liste déroulante Type.
3. Choisissez le nom de votre stockage cloud AWS dans la liste déroulante Stockage cloud.
4. Cliquez sur Créer pour inscrire votre stockage cloud en tant que partage de fichiers Big Data

Vous disposez désormais d'un partage de fichiers Big Data et d'un manifeste pour votre stockage cloud AWS. L'élément de partage de fichiers Big Data pointe vers un service de catalogue Big Data sur le site GeoAnalytics Server.

Procédez comme suit pour inscrire le stockage cloud Azure que vous avez créé au cours de la dernière section en tant que partage de fichiers Big Data :

Connectez-vous à votre site GeoAnalytics Server dans le répertoire administrateur ArcGIS Server.
Pour le répertoire administrateur ArcGIS Server, vous devez être connecté en tant qu'administrateur. Pour vous connecter à votre site GeoAnalytics Server fédéré, vous devez vous connecter avec un jeton de portail, ce qui nécessite les informations d'identification de l'administrateur du portail, ou en tant qu'administrateur de site principal du site GeoAnalytics Server. Si vous n'êtes pas administrateur du portail ou n'avez pas accès aux informations du compte administrateur de site principal, contactez l'administrateur de votre portail pour qu'il suive ces étapes.
Accédez à données > registerItem.
Copiez le texte suivant et collez-le dans la zone de texte Elément. Mettez à jour la valeur <bigDataFileShareName> avec le nom que vous souhaitez attribuer au partage de fichiers Big Data et la valeur <cloudStoreName> avec le nom que vous avez attribué au stockage cloud Azure lors de son inscription auprès de votre site GeoAnalytics Server.
```
{
   "path": "/bigDataFileShares/<bigDataFileShareName>",
   "type": "bigDataFileShare",
   "info": {
   "connectionString": "{\"path\" : \"/cloudStores/<cloudStoreName>\"}",
   "connectionType": "dataStore"
   }
   }
```
Cliquez sur Inscrire l'élément.
Une fois l'élément inscrit, le partage de fichiers Big Data apparaît en tant que stockage des données dans ArcGIS Server Manager.
Connectez-vous à votre site GeoAnalytics Server site GeoAnalytics Server dans ArcGIS Server Manager.
Vous pouvez vous connecter en tant qu'éditeur ou administrateur.
Accédez à Site > Stockage des données et cliquez sur le bouton Régénérer le manifeste en regard de votre nouveau partage de fichiers Big Data.

Vous disposez désormais d'un partage de fichiers Big Data et d'un manifeste pour votre stockage cloud Azure. L'élément de partage de fichiers Big Data pointe vers un service de catalogue Big Data sur le site GeoAnalytics Server.

Inscrire votre partage de fichiers Big Data

Pour inscrire un partage de fichiers, un stockage cloud HDFS ou Hive, en tant que partage de fichiers Big Data, connectez-vous à votre site GeoAnalytics Server via ArcGIS Server Manager. Reportez-vous à la rubrique Inscrire vos données auprès d'ArcGIS Server à l’aide du gestionnaire dans l’aide d’ArcGIS Server pour connaître les étapes à suivre.

Astuce:

Les étapes d'inscription d'un stockage Cloud en tant que partage de fichiers Big Data ont été décrites dans la section précédente.

Lorsqu'un partage de fichiers Big Data est inscrit, un manifeste est généré pour décrire la structure des jeux de données dans votre emplacement de partage, y compris les champs représentant la géométrie et l'heure. Un élément de partage de fichiers Big Data pointant vers un service de catalogue Big Data est créé sur votre portail, sur le site GeoAnalytics Server où vous avez inscrit les données. Pour en savoir plus sur les services de catalogue Big Data, consultez la documentation Service de catalogue Big Data dans l'aide de l'API REST d'ArcGIS Server.

Modifier un partage de fichiers Big Data

Lorsqu'un service de catalogue Big Data est créé, un manifeste est automatiquement généré et téléchargé sur le site GeoAnalytics Server où vous avez inscrit les données. Lors de la génération d'un manifeste, les champs représentant la géométrie et l’heure ne sont pas toujours évalués correctement et vous devrez peut-être les modifier. Pour modifier un manifeste, suivez les étapes de la rubrique Mettre à jour les manifestes de partage de fichiers Big Data dans le gestionnaire. Pour en savoir plus sur le manifeste de partage de fichiers Big Data, reportez-vous à la rubrique Présentation d'un manifeste de partage de fichiers Big Data dans l’aide d’ArcGIS Server.

Analyse d'un partage de fichiers Big Data

Vous pouvez exécuter une analyse sur un jeu de données dans un partage de fichiers Big Data à l'aide d'un client prenant en charge GeoAnalytics Server, à savoir l’un des suivants :

ArcGIS Pro
La visionneuse de carte Portal for ArcGIS
API REST ArcGIS

Pour exécuter votre analyse sur un partage de fichiers Big Data via ArcGIS Pro ou la visionneuse de carte Portal for ArcGIS, sélectionnez l'GeoAnalytics Tools de votre choix. Pour sélectionner les données à entrer dans l'outil, accédez à l'emplacement de stockage de vos données sous Portail dans ArcGIS Pro ou ouvrez la boîte de dialogue Parcourir les couches dans la visionneuse de carte Portal for ArcGIS. Les données se trouvent dans Mon contenu si vous les avez vous-même inscrites. Sinon, recherchez dans Groupes ou L’intégralité du portail. La couche de partage de fichiers Big Data sélectionnée en vue d'être analysée ne s'affiche pas sur la carte.

Remarque :

Vérifiez que vous êtes connecté à un compte de portail qui peut accéder au partage de fichiers Big Data inscrit. Vous pouvez effectuer une recherche sur votre portail en utilisant le terme bigDataFileShare* pour trouver rapidement tous les partages de fichiers Big Data auxquels vous avez accès.

Pour exécuter l'analyse sur un partage de fichiers Big Data via l'API REST d'ArcGIS, utilisez l'URL du service de catalogue Big Data en entrée. L'URL est au format {"url":" https://webadaptorhost.domain.com/webadaptorname/rest/DataStoreCatalogs/bigDataFileShares_filesharename/BigDataCatalogServer/dataset"}. Par exemple, si la machine s'appelle example, le domaine esri, l'adaptateur Web server, le partage de fichiers Big Data MyData et le jeu de données Earthquakes, l'URL a le format suivant : {"url":" https://example.esri.com/server/rest/DataStoreCatalogs/bigDataFileShares_MyData/BigDataCatalogServer/Earthquakes"}. Pour en savoir plus sur les données à entrer dans le cadre d'une analyse de Big Data via REST, reportez-vous à la rubrique Entrée d'entités dans la documentation de l'API REST d'ArcGIS Server.

Vous avez un commentaire à formuler concernant cette rubrique ?