Skip To Content

Mise en route des partages de fichiers Big Data

Remarque :

Dans les versions 10.9.1 ou ultérieures, inscrivez un partage de fichiers Big Data via la page de contenu de votre portail. Cette méthode est recommandée pour inscrire des partages de fichiers Big Data. Utilisez uniquement Server Manager pour la mise à jour si votre partage de fichiers Big Data a été créé avec Server Manager et que vous ne l’avez pas remplacé par un partage de fichiers Big Data dans le portail.

Un partage de fichiers Big Data est un élément créé sur votre portail qui fait référence à un emplacement disponible sur votre instance ArcGIS GeoAnalytics Server. Vous pouvez utiliser l’emplacement du partage de fichiers Big Data comme entrée et sortie pour les données d’entité (points, polylignes, polygones et données tabulaires) des outils GeoAnalytics. Lorsque vous créez un partage de fichiers Big Data via la page de contenu de votre portail, au moins deux éléments sont créés dans votre portail :

  • Un élément de data store (partage de fichiers Big Data)
  • Un élément de partage de fichiers Big Data
  • Un élément de data store (emplacement de stockage Cloud), si vous inscrivez un data store de stockage Cloud pour un partage de fichiers Big Data
L’élément de partage de ficheirs Big Data pointe vers un service de catalogue Big Data, ce qui indique les jeux de données dans le partage de fichiers Big Data et leur structure (informations de géométrie et de temps incluses) et les formats de sortie, appelés modèles, que vous avez inscrits. Lors de l’utilisation d’un partage de fichiers Big Data en guise d’entrée d’un outil ArcGIS GeoAnalytics Server, vous pouvez accéder à l’élément de partage de fichiers Big Data pour exécuter l’analyse sur un jeu de données.

Remarque :

Un partage de fichiers Big Data n’est disponible que si l’administrateur du portail a activé GeoAnalytics Server. Pour en savoir plus sur l’activation de GeoAnalytics Server, reportez-vous à la rubrique Configurer ArcGIS GeoAnalytics Server.

Partages de fichiers Big Data

Il y a plusieurs avantages à utiliser un partage de fichiers Big Data :

  • Vous pouvez conserver vos données dans un emplacement accessible jusqu'à ce que vous soyez prêt à exécuter l'analyse. Un partage de fichiers Big Data accède aux données lors de l’exécution de l’analyse, afin que vous puissiez continuer à ajouter davantage de données à un jeu de données existant dans votre partage de fichiers Big Data sans avoir à réinscrire ou à publier vos données.
  • Vous pouvez également modifier le manifeste pour supprimer, ajouter ou mettre à jour des jeux de données du partage de fichiers Big Data.
  • Les partages de fichiers Big Data permettent de définir facilement l'heure et la géométrie et acceptent plusieurs formats d'heure dans un jeu de données unique.
  • Ils vous permettent également de partitionner vos jeux de données tout en traitant plusieurs partitions en tant que jeu de données unique.
  • L’utilisation de partages de fichiers Big Data pour les données en sortie permet de stocker vos résultats dans des formats utilisables par d’autres processus, comme un fichier parquet, en vue d’une analyse ou d’un stockage ultérieur.

Remarque :

Vous ne pouvez accéder aux partages de fichiers Big Data que si vous exécutez des GeoAnalytics Tools. Cela signifie que vous pouvez uniquement parcourir les fichiers Big Data et les ajouter à votre analyse ; vous ne pouvez pas visualiser les données sur une carte.

Les partages de fichiers Big Data peuvent faire référence aux sources de données en entrée suivantes :

  • Partage de fichiers : répertoire de jeux de données sur un disque local ou un partage réseau.
  • Apache Hadoop Distributed File System (HDFS) : répertoire HDFS de jeux de données.
  • Apache Hive : base de données Metastore Hive.
  • Stockage Cloud : compartiment Amazon Simple Storage Service (S3), conteneur Blob Microsoft Azure ou stockage Microsoft Azure Data Lake Storage Gen2 contenant un répertoire de jeux de données.

Lors de l’écriture de résultats dans un partage de fichiers Big Data, vous pouvez utiliser la sortie suivante de GeoAnalytics Tools :

  • Partage de fichiers
  • HDFS
  • Emplacement de stockage Cloud

Les types de fichier suivants sont pris en charge en tant que jeux de données pour l’entrée et la sortie dans les partages de fichiers de données :

  • Fichiers délimités (tels que .csv, .tsv et .txt)
  • Shapefiles (.shp)
  • Fichiers Parquet (.parquet)
    Remarque :

    Seuls les fichiers Parquet non chiffrés sont pris en charge.

  • Fichiers ORC (.orc)

Les partages de fichiers Big Data constituent l’une des différentes façons dont les GeoAnalytics Tools peuvent accéder à vos données et ne sont pas requis pour GeoAnalytics Tools. Consultez Utiliser les GeoAnalytics Tools dans Map Viewer Classic pour obtenir la liste des entrées de données des GeoAnalytics Tools et des sorties possibles.

Vous pouvez enregistrer autant de partages de fichiers Big Data que vous en avez besoin. Chaque partage de fichiers Big Data peut avoir autant de jeux de données que vous souhaitez. Consultez la rubrique Ajouter un partage de fichiers Big Data pour obtenir des instructions sur l’inscription d’un partage de fichiers Big Data sur le site GeoAnalytics Server.

La table ci-dessous souligne certains termes importants lorsqu'il est question d'aborder les partages de fichiers Big Data.

PériodeDescription

Partage de fichiers Big Data

Emplacement inscrit auprès de votre instance GeoAnalytics Server à utiliser comme entrée ou comme sortie de jeu de données, ou bien à la fois comme entrée et comme sortie de GeoAnalytics Tools.

Service de catalogue Big Data

Service qui désigne les jeux de données en entrée et les schémas et les noms de modèle en sortie de votre partage de fichiers Big Data. Il est créé lors de l’enregistrement de votre partage de fichiers Big Data et lors de la création de votre manifeste.

Pour en savoir plus sur les services de catalogue Big Data, consultez la documentation Service de catalogue Big Data dans l'aide de l'API REST d'ArcGIS Server.

Élément du partage de fichiers Big Data

Élément de votre portail qui fait référence au service de catalogue Big Data. Vous pouvez contrôler qui peut utiliser votre partage de fichiers Big Data comme entrée vers GeoAnalytics en partageant cet élément dans le portail.

Manifeste

Un fichier JSON souligne les jeux de données disponibles et le schéma pour les entrées dans votre partage de fichiers Big Data. Le manifeste est généré automatiquement lorsque vous inscrivez un partage de fichiers Big Data et peut être modifié lors de la mise à jour ou de l'utilisation d'un fichier d’astuces. Un seul partage de fichiers Big Data possède un manifeste.

Modèles en sortie

Un ou plusieurs modèles qui indiquent le type de fichier et la mise en page facultative lors de l’écriture de résultats vers un partage de fichiers Big Data. Par exemple, un modèle pourrait préciser que les résultats écrivent vers un fichier de forme. Un partage de fichiers Big Data peut avoir aucun, un ou plusieurs modèles en sortie.

Type de partage de fichiers Big Data

Le type d’emplacements que vous inscrivez. Par exemple, vous pourriez avoir un partage de fichiers Big Data ou saisir HDFS.

Format de jeu de données de partage de fichiers Big Data

Format des données que vous lisez ou écrivez. Par exemple, le type de fichier peut être un fichier de forme.

Fichier d'astuces

Un fichier facultatif que vous pouvez utiliser pour contribuer à générer un manifeste pour les fichiers délimités utilisés en tant qu’entrée.

Préparer l'inscription des données en tant que partage de fichiers Big Data

Pour utiliser vos jeux de données en tant qu’entrées dans un partage de fichiers Big Data, vérifiez que vos données sont correctement mises en forme. Consultez la rubrique ci-dessous pour la mise en page selon le type de partage de fichiers Big Data.

Partages de fichiers et HDFS

Pour préparer l’inscription de vos données en tant que partage de fichiers Big Data, vous devez organiser vos jeux de données dans des sous-dossiers, sous un seul dossier parent qui sera inscrit. Dans ce dossier parent que vous enregistrez, les noms des sous-dossiers représentent les noms de jeu de données. Si vos sous-dossiers contiennent plusieurs dossiers ou fichiers, tous les contenus des sous-dossiers de niveau supérieur sont lus comme jeu de données unique, et doivent partager la même structure. L’exemple suivant illustre l’inscription du dossier FileShareFolder contenant trois jeux de données : Earthquakes, Hurricanes et GlobalOceans. Lorsque vous inscrivez un dossier parent, tous les sous-répertoires du dossier spécifié sont également inscrits auprès de l’instance GeoAnalytics Server. Inscrivez toujours le dossier parent (par exemple, \\machinename\FileShareFolder) qui contient un ou plusieurs dossiers de jeux de données individuels.

Exemple d'un partage de fichiers Big Data contenant trois jeux de données : Earthquakes, Hurricanes et GlobalOceans.


|---FileShareFolder                 < -- The top-level folder is what is registered as a big data file share
   |---Earthquakes                  < -- A dataset "Earthquakes", composed of 4 csvs with the same schema
      |---1960
         |---01_1960.csv
         |---02_1960.csv
      |---1961
         |---01_1961.csv
         |---02_1961.csv
   |---Hurricanes                   < -- The dataset "Hurricanes", composed of 3 shapefiles with the same schema
      |---atlantic_hur.shp
      |---pacific_hur.shp
      |---otherhurricanes.shp
   |---GlobalOceans                 < -- The dataset "GlobalOceans", composed of a single shapefile
      |---oceans.shp

Bien que la terminologie diffère, la même structure est appliquée aux partages de fichiers et à HDFS. Un partage de fichiers contient un dossier ou répertoire supérieur et les jeux de données sont représentés par les sous-répertoires. Dans HDFS, l’emplacement du partage de fichiers est inscrit et contient des jeux de données. La table suivante indique les différences :

Partage de fichiersHDFS

Emplacement du partage de fichiers Big Data

Dossier ou répertoire

Chemin HDFS

Jeux de données

Sous-dossiers supérieurs

Jeux de données dans le chemin HDFS

Lorsque vos données sont organisées dans un dossier contenant des sous-dossiers de jeux de données, pour permettre à votre instance GeoAnalytics Server d’accéder à vos données, suivez les étapes de la rubrique Rendre vos données accessibles pour ArcGIS Server, puis inscrivez le dossier du jeu de données ou le chemin HDFS via le portail.

Hive

Dans Hive, toutes les tables d’une base de données sont reconnues comme jeux de données dans un partage de fichiers Big Data. L’exemple suivant présente un Metastore contenant deux bases de données, default et CityData. Lorsque vous inscrivez un partage de fichiers Big Data Hive, vous ne pouvez sélectionner qu’une seule base de données. Dans cet exemple, si vous sélectionnez la base de données CityData, le partage de fichiers Big Data contient deux jeux de données, à savoir FireData et LandParcels.


|---HiveMetastore                 < -- The top-level folder is what is registered as a big data file share
   |---default                    < -- A database
      |---Earthquakes
      |---Hurricanes
      |---GlobalOceans
   |---CityData				            < -- A database that is registered (specified in Server Manager)
      |---FireData
      |---LandParcels

Data stores de stockage Cloud

Pour préparer vos données à un partage de fichiers Big Data dans un emplacement de stockage Cloud, vous devez organiser vos jeux de données dans des sous-dossiers, sous un seul dossier parent.

Voici un exemple de structuration des données. Cet exemple inscrit le dossier parent, FileShareFolder, qui contient trois jeux de données : Earthquakes, Hurricanes et GlobalOceans. Lorsque vous inscrivez un dossier parent, tous les sous-répertoires du dossier spécifié sont également inscrits auprès de l’instance GeoAnalytics Server.

Voici un exemple de structuration des données dans un emplacement de stockage Cloud qui sera utilisé comme partage de fichiers Big Data. Ce fichier Big Data contient trois jeux de données : Earthquakes, Hurricanes et GlobalOceans.


|---Cloud Store                          < -- The cloud storage location being registered
   |---Container or S3 Bucket Name       < -- The container (Azure) or bucket (Amazon) being registered as part of the cloud storage data store
      |---FileShareFolder                < -- The parent folder that is registered as the 'folder' during cloud storage registration
         |---Earthquakes                 < -- The dataset "Earthquakes", composed of 4 csvs with the same schema
            |---1960
               |---01_1960.csv
               |---02_1960.csv
            |---1961
               |---01_1961.csv
               |---02_1961.csv
         |---Hurricanes                  < -- The dataset "Hurricanes", composed of 3 shapefiles with the same schema
            |---atlantic_hur.shp
            |---pacific_hur.shp
            |---otherhurricanes.shp
         |---GlobalOceans                < -- The dataset "GlobalOceans", composed of 1 shapefile
            |---oceans.shp

Gérer les partages de fichiers Big Data dans un portail

Une fois que vous avez créé un partage de fichiers Big Data, vous pouvez examiner les jeux de données qu’il contient et les modèles qui indiquent le mode d’écriture des résultats enregistrés dans les partages de fichiers Big Data.

Modifier un partage de fichiers Big Data

Lorsqu’un élément de partage de fichiers Big Data est créé, un manifeste est automatiquement généré et chargé pour les données en entrée. Lors de la génération d'un manifeste, les champs représentant la géométrie et l’heure ne sont pas toujours évalués correctement et vous devrez peut-être les modifier. Pour mettre à jour un manifeste et la façon dont les jeux de données sont représentés, suivez les étapes de la rubrique Mettre à jour les partages de fichiers Big Data. Pour en savoir plus sur le manifeste de partage de fichiers Big Data, reportez-vous à la rubrique Manifeste de partage de fichiers Big Data dans l’aide ArcGIS Server.

Si vous avez créé votre partage de fichiers Big Data dans ArcGIS Server avec le gestionnaire, suivez les étapes de la rubrique Mettre à jour les manifestes de partage de fichiers Big Data dans Server Manager.

Modifier les modèles en sortie pour un partage de fichiers Big Data

Si vous décidez d’utiliser votre partage de fichiers Big Data comme emplacement en sortie, les modèles en sortie sont automatiquement générés. Ces modèles mettent en avant la mise en page des résultats de l’analyse en sortie, comme le type de fichier, et la manière dont l’heure et la géométrie seront enregistrés. Si vous souhaitez modifier la mise en forme de la géométrie ou de l’heure, ou ajouter ou supprimer des modèles, vous pouvez modifier les modèles. Pour mettre à jour les modèles en sortie, suivez les étapes de la rubrique Créer, mettre à jour et afficher des modèles en sortie. Pour en savoir plus sur les modèles en sortie, reportez-vous à la rubrique Modèles en sortie dans les partages de fichiers Big Data.

Si vous avez créé votre partage de fichiers Big Data dans ArcGIS Server avec le gestionnaire, suivez les étapes de la rubrique Mettre à jour les manifestes de partage de fichiers Big Data dans Server Manager.

Migrer les partages de fichiers Big Data créés dans Server Manager vers un portail

Les partages de fichiers Big Data créés avec un portail présentent de nombreux avantages par rapport aux fichiers Big Data créés dans Server Manager, par exemple :

  • Expérience utilisateur optimisée pour faciliter la mise à jour des jeux de données.
  • Expérience simplifiée pour inscrire vos partages de fichiers Big Data.
  • Les éléments sont stockés et partagés avec les identifiants de connexion du portail

Il est recommandé de créer un élément de data store pour les partages de fichiers Big Data que vous avez créés dans Server Manager. Dans certains cas, cela est obligatoire. Dans les cas suivants, vous devez migrer les partages de fichiers Big Data afin qu’ils deviennent des éléments de data store dans le portail pour continuer à les utiliser :

  • Partages de fichiers Big Data basés sur un data store de stockage Cloud Microsoft Azure Data Lake Storage Gen1.

Pour migrer un partage de fichiers Big Data créé dans Server Manager vers un élément de data store du portail, vérifiez que vous disposez des éléments suivants :

  • Les identifiants de connexion et l’emplacement de fichier de votre partage de fichiers Big Data configuré.
  • Le cas échéant, les identifiants de connexion et l’emplacement de fichier de votre data store de stockage Cloud configuré.
Une fois les identifiants de connexion connus, procédez comme suit :

  1. Connectez-vous à Server Manager sur votre site GeoAnalytics Server.
  2. Accédez à Site > Stockage des données. Cliquez sur le bouton de mise à jour dans le partage de fichiers Big Data à migrer.
  3. Accédez à Advanced (Avancé) > Manifest (Manifeste). Cliquez sur le bouton Download (Télécharger) pour enregistrer le manifeste.
  4. Si vous avez des astuces, procédez de la même manière pour les astuces. Cliquez sur Hints (Astuces)Download (Télécharger) pour enregistrer votre fichier d’astuces. Renommez votre extension de fichier .dat en .txt.txt.
  5. Si vous avez des modèles en sortie sous la section Advanced (Avancé)Output Templates (Modèles en sortie), copiez le texte et enregistrez-le dans un fichier texte.
  6. Créez un partage de fichiers Big Data dans la page de contenu du portail à l’aide du même type et du même emplacement en entrée que ceux utilisés précédemment.

    Si vous ne connaissez pas les identifiants de connexion, votre administrateur peut les trouver dans Administrateur de serveur à l’aide de l’option decrypt=true dans les éléments de partage de fichiers Big Data et de data store de stockage Cloud.

    Suivez les étapes de la rubrique Ajouter un élément de data store et utilisez les mêmes identifiants de connexion et emplacement que votre partage de fichiers Big Data existant.

  7. Une fois l’élément de partage de fichiers Big Data créé, cliquez sur Datasets (Jeux de données) et activez l’option Show advanced (Afficher les paramètres avancés).
  8. Chargez le manifeste enregistré précédemment en cliquant sur Upload (Charger) dans la section du manifeste. Accédez au fichier JSON du manifeste qui a été enregistré plus tôt et cliquez sur Upload (Charger). Cliquez sur le bouton Sync (Synchroniser) pour répercuter les changements.
  9. Si vous avez un fichier d’astuces à charger, suivez la même procédure et chargez votre fichier d’astuces sous l’option Show advanced (Afficher les paramètres avancés) > Hints (Astuces) > Upload (Charger). Cliquez sur le bouton Sync (Synchroniser) pour répercuter les changements.
  10. Pour charger les modèles en sortie, procédez de l’une des manières suivantes :

Vous disposez maintenant d’un partage de fichiers Big Data et d’un manifeste pour votre élément de partage de fichiers Big Data dans votre portail. Vous pouvez actualiser vos processus de façon à utiliser et désigner ce partage de fichiers Big Data. Si vous êtes certain que tout fonctionne conformément à vos attentes, supprimez le partage de fichiers Big Data d’origine dans Server Manager.

Analyse d'un partage de fichiers Big Data

Vous pouvez exécuter une analyse sur un jeu de données dans un partage de fichiers Big Data à l’aide d’un client prenant en charge GeoAnalytics Server, à savoir l’un des suivants :

  • ArcGIS Pro
  • Map Viewer Classic
  • ArcGIS REST API
  • ArcGIS API for Python

Pour exécuter votre analyse sur un partage de fichiers Big Data via ArcGIS Pro ou Map Viewer Classic, sélectionnez l’outil GeoAnalytics Tools que vous souhaitez utiliser. Pour sélectionner les données à entrer dans l’outil, accédez à l’emplacement de vos données sous Portal (Portail) dans ArcGIS Pro ou ouvrez la boîte de dialogue Browse Layers (Rechercher des couches) dans Map Viewer Classic. Les données se trouvent dans Mon contenu si vous les avez vous-même inscrites. Sinon, recherchez dans Groups (Groupes) ou All Portal (L’intégralité du portail). La couche de partage de fichiers Big Data sélectionnée en vue d'être analysée ne s'affiche pas sur la carte.

Remarque :

Vérifiez que vous êtes connecté à un compte de portail qui peut accéder au partage de fichiers Big Data inscrit. Vous pouvez effectuer une recherche sur votre portail en utilisant le terme bigDataFileShare* pour trouver rapidement tous les partages de fichiers Big Data auxquels vous avez accès.

Pour exécuter l’analyse sur un partage de fichiers Big Data via ArcGIS REST API, utilisez l’URL du service de catalogue Big Data en entrée. Si vous avez créé le partage de fichiers Big Data dans le portail, il sera au format {"url":" https://webadaptorhost.domain.com/webadaptorname/rest/DataStoreCatalogs/bigDataFileShares_filesharename/"}. Par exemple, si la machine s’appelle example, le domaine esri, l’adapteur Web server, le partage de fichiers Big Data MyData et le jeu de données Earthquakes, l’URL a le format : {"url":" https://example.esri.com/server/rest/DataStoreCatalogs/bigDataFileShares_MyData/Earthquakes_uniqueID"}. Si vous avez créé le partage de fichiers Big Data dans Server Manager, il sera au format {"url":"https://webadaptorhost.domain.com/webadaptorname/rest/DataStoreCatalogs/bigDataFileShares_filesharename/BigDataCatalogServer/dataset"}

Pour en savoir plus sur les données à entrer dans le cadre d’une analyse de Big Data via REST, reportez-vous à la rubrique Entrée d’entités dans la documentation REST API des services ArcGIS.

Enregistrer les résultats dans un partage de fichiers Big Data

Vous pouvez exécuter l’analyse sur un jeu de données (partage de fichiers Big Data ou autre entrée) et enregistrer les résultats dans un partage de fichiers Big Data. Vous pouvez y parvenir via les clients suivants :

  • Map Viewer Classic
  • ArcGIS REST API
  • ArcGIS API for Python

Lorsque vous écrivez des résultats vers un partage de fichiers Big Data, le manifeste en entrée est mis à jour pour inclure le jeu de données que vous venez d’enregistrer. Les résultats que vous avez écrit vers le partage de fichiers Big Data sont désormais disponibles en tant qu’entrée pour l’exécution d’un autre outil. Lorsque vous enregistrez les résultats vers un partage de fichiers Big Data, vous ne pouvez pas les visualiser.