Gérer les partages de fichiers Big Data dans un portail—ArcGIS GeoAnalytics Server

Les partages de fichiers Big Data sont inscrits par le biais de la page de contenu du portail. Lorsque vous ajoutez un partage de fichiers Big Data dans votre portail, un élément de data store associé est également créé. Lorsque vous ajoutez un partage de fichiers Big Data de répertoire Cloud, un élément de partage de fichiers Big Data, un élément de data store de type partage de fichiers Big Data et un élément de data store de type répertoire Cloud sont créés. Un élément de portail de partage de fichiers Big Data comporte les onglets suivants :

Overview (Vue d’ensemble) : présente des informations d’ordre général sur le partage de fichiers Big Data ainsi que les éléments de data store qui lui sont associés. Il est possible de partager et de supprimer les éléments de data store associés avec le partage de fichiers Big Data.
Datasets (Jeux de données) : répertorie les jeux de données et présente brièvement la structure des données en entrée. Les informations d’un jeu de données comprennent les champs et les formats qui représentent la géométrie et le temps.
Outputs (Sorties) : présente succinctement les modèles en sortie facultatifs, qui permettent d’écrire des résultats dans un partage de fichiers Big Data. Les modèles en sortie sont facultatifs et créés après l’inscription d’un partage de fichiers Big Data. Pour savoir comment créer ou mettre à jour un modèle en sortie, reportez-vous à la section Créer, mettre à jour et afficher des modèles en sortie.
Settings (Paramètres) : décrit le statut, l’étendue et la protection contre la suppression du contenu.

Vous pouvez afficher et mettre à jour les jeux de données, la structure et les modèles en sortie au moyen de l’élément de partage de fichiers Big Data.

Remarque :

Pour partager un élément Big Data File Share (Partage de fichiers Big Data), vous devez partager l’élément de data store racine. Le data store racine d’un partage de fichiers Big Data de type Cloud est l’élément Data Store (Cloud) du même nom. Pour tous les autres types de partage de fichiers Big Data (File Share (Partage de fichiers), HDFS et HIVE), le data store racine est l’élément Data Store (Big Data File Share) [Data Store (Partage de fichiers Big Data)] du même nom.

Modifier les partages de fichiers Big Data

Une fois que vous avez créé un partage de fichiers Big Data par le biais de votre portail, vous pouvez utiliser l’élément correspondant pour afficher les jeux de données, mettre à jour leur mise en forme ou synchroniser votre partage de fichiers Big Data pour ajouter des jeux de données supplémentaires.

Un partage de fichiers Big Data est composé d’au moins un jeu de données. Le nombre de jeux de données dépend du nombre de dossiers dans l'emplacement de votre partage de fichiers Big Data. Vous pouvez afficher les jeux de données qui ont été enregistrés dans votre partage de fichiers Big Data.

Si vous pensiez trouver davantage de jeux de données dans votre partage de fichiers Big Data ou s’il en manque certains, procédez comme suit :

Vérifiez que vous avez correctement enregistré le dossier de niveau supérieur. Pour plus d'informations, reportez-vous à la rubrique Préparer les données.
Vérifiez que les données en entrée sont dans un format autorisé, tel qu’un ensemble de fichiers délimités, des shapefiles, des fichiers Parquet ou ORC (Optimized Row Columnar).
Assurez-vous que la structure de votre jeu de données en entrée d'intérêt est cohérente pour un ensemble de fichiers (tous les fichiers d'un jeu de données unique doivent posséder les mêmes champs).

Vous pouvez utiliser le jeu de données pour vérifier le nombre de jeux de données présents dans un partage de fichiers Big Data ou examiner les structures de jeu de données pour un jeu de données inscrit. Pour modifier la structure d’un jeu de données sélectionné, vous pouvez mettre à jour sa géométrie, sa définition temporelle et ses noms de champs en procédant comme suit.

Mettre à jour les jeux de données en entrée d’un partage de fichiers Big Data

La mise à jour de l’élément de partage de fichiers Big Data vous permet de modifier la manière dont vos données sont inscrites et utilisées dans des analyses. Vous pouvez également utiliser l’option de mise à jour pour voir comment vos données sont inscrites actuellement. Pour en savoir plus sur chaque option de cette boîte de dialogue, reportez-vous à la rubrique Mise à jour des paramètres des partages de fichiers Big Data. Pour mettre à jour les paramètres d'un jeu de données, procédez comme suit :

Ouvrez l’élément de partage de fichiers Big Data du contenu de votre portail.
Cliquez sur l’onglet Dataset (Jeu de données).
Cliquez sur le bouton Edit (Mettre à jour) en regard du jeu de données à mettre à jour.
Modifiez le jeu de données à l’aide des options Fields (Champs), Geometry (Géométrie), Time (Heure) et File (Fichier).
Une fois que vous avez modifié les propriétés du jeu de données, cliquez sur Enregistrer.

Supprimer les jeux de données en entrée d’un partage de fichiers Big Data

La suppression d’un jeu de données vous permet de personnaliser les jeux de données disponibles dans le partage de fichiers Big Data. La suppression d’un jeu de données ne supprime pas les données dans la localisation source. Si vous décidez ultérieurement de rendre accessible le jeu de données supprimé dans la connexion Big Data, vous pouvez utiliser l’option de synchronisation. Pour supprimer les jeux de données d’un partage de fichiers Big Data, procédez comme suit :

Ouvrez l’élément de partage de fichiers Big Data du contenu de votre portail.
Cliquez sur l’onglet Dataset (Jeu de données).
Cochez la case en regard du jeu de données à supprimer.
Cliquez sur le bouton Delete (Supprimer) en haut de la table des jeux de données pour supprimer le jeu de données du partage de fichiers Big Data.

Mettre à jour un manifeste de partage de fichiers Big Data ou un fichier d'astuces

Sous l’option Show advanced (Afficher les paramètres avancés) de l’onglet Datasets (Jeux de données) du partage de fichiers Big Data, vous pouvez afficher, télécharger et charger le fichier manifeste ou le fichier d’astuces. Si vous chargez un manifeste, il écrase les modifications que vous avez apportées aux jeux de données de votre partage de fichiers Big Data et remplace la structure et les jeux de données existants. Pour en savoir plus sur le manifeste de partage de fichiers Big Data, reportez-vous à la rubrique Manifeste de partage de fichiers Big Data. Pour en savoir plus sur l’utilisation d’un fichier d’astuces, reportez-vous à la rubrique Fichier d’astuces. Pour mettre à jour un manifeste de partage de fichiers Big Data ou un fichier d'astuces, procédez comme suit :

Ouvrez l’élément de partage de fichiers Big Data du contenu de votre portail.
Cliquez sur l’onglet Datasets (Jeux de données).
Cliquez sur le bouton bascule Show advanced (Afficher les paramètres avancés) pour l’activer.
1. Pour télécharger le fichier manifeste, cliquez sur Download (Télécharger) dans la section relative au manifeste.
2. Pour télécharger le fichier d’astuces, cliquez sur Download (Télécharger) dans la section relative aux astuces.
Utilisez un éditeur de texte pour modifier et enregistrer les modifications localement dans le fichier manifeste .json ou le fichier d’astuces .dat téléchargé.
Conseil :
Le format de fichier par défaut du fichier d’astuces est .dat. Une fois le fichier téléchargé, vous pouvez modifier son extension en .txt et mettre à jour le fichier.
Pour charger un fichier mis à jour, dans le partage de fichiers Big Data, accédez à l’onglet Dataset (Jeu de données) et activez l’option Show advanced (Afficher les paramètres avancés).
1. Pour charger le manifeste, cliquez sur Upload (Charger) dans la section du manifeste, puis accédez au fichier .json mis à jour.
2. Pour charger le fichier d’astuces, cliquez sur Upload (Charger) dans la section des astuces, puis accédez au fichier .txt mis à jour.
Cliquez sur Upload (Charger).

Si vous chargez un fichier d’astuces, synchronisez le partage de fichiers Big Data. Lors de la synchronisation, seuls les jeux de données contenant des astuces ou les nouveaux jeux de données sont mis à jour, et les modifications apportées aux autres jeux de données ne figurant pas dans le fichier d’astuces sont conservées.

Synchroniser un partage de fichiers Big Data

Vous pouvez synchroniser votre connexion Big Data si vous ajoutez de nouveaux jeux de données à votre source de données ou si vous chargez un fichier d’astuces. Le fichier d’astuces contient des spécifications qui sont utilisées lors de la régénération du partage de fichiers Big Data.

Remarque :

La synchronisation d’un partage de fichiers Big Data le met à jour uniquement pour les jeux de données existants dotés d’un fichier d’astuces ou pour les nouveaux jeux de données. Les mises à jour que vous apportez aux jeux de données figurant dans le fichier d’astuces sont remplacées par les règles définies dans le fichier d’astuces.

Ouvrez l’élément de partage de fichiers Big Data du contenu de votre portail.
Cliquez sur l’onglet Datasets (Jeux de données).
Cliquez sur le bouton Sync (Synchroniser) pour l’activer.

Créer, modifier et afficher des modèles en sortie

Vous pouvez créer, modifier ou afficher des modèles en sortie. Vous pouvez également mettre à jour les attributs et paramètres des modèles en sortie, qui indiquent la façon dont les résultats en sortie sont écrits dans le partage de fichiers Big Data.

Pour créer un modèle en sortie, procédez comme suit :

Ouvrez l’élément de partage de fichiers Big Data du contenu de votre portail.
Cliquez sur l’onglet Outputs (Sorties).
Cliquez sur le bouton Add output template (Ajouter un modèle en sortie).
Attribuez un nom au modèle en sortie, puis sélectionnez le type de fichier cible de ses écritures.
1. Cliquez sur l’onglet Geometry (Géométrie) pour définir les formats de la géométrie de ce modèle. Vous pouvez en définir pour tous les types de géométrie, ou pour un ou deux. Les options de mise en forme sont identiques à celles des partages de fichiers Big Data en entrée.
2. Cliquez sur l’onglet Time (Heure) pour définir les formats de date/heure de ce modèle. Vous pouvez ne rien indiquer, définir un instant, un intervalle ou les deux. Les options de mise en forme de la date et de l’heure sont identiques aux formats de date/heure des partages de fichiers Big Data en entrée.
Cliquez sur Save (Enregistrer) lorsque vous avez terminé.

Procédez de la même manière pour afficher ou modifier un modèle.

Mise à jour des paramètres des partages de fichiers Big Data

L’éditeur de partages de fichiers Big Data se compose des quatre sections suivantes :

Champs
Géométrie
Durée
Fichier

Il est recommandé d’utiliser un fichier d’astuces avant de mettre à jour les données si la génération du manifeste n’a pas permis de déterminer correctement les noms de champs, le codage, les délimiteurs de champs et les caractères de délimitation d’un fichier délimité.

Champs

La section champs répertorie tous les champs d'un jeu de données. Lorsque vous sélectionnez un jeu de données, les éléments suivants sont visibles pour chaque champ :

Nom du champ
Type de champ

Vous ne pouvez modifier que le nom de champ et le type de champ des fichiers délimités. Pour modifier de nombreux noms de champ, il est recommandé d’utiliser un fichier d’astuces.

En savoir plus sur les types de champ pris en charge

Géométrie

La section relative à la géométrie répertorie le type de géométrie, sa représentation et la référence spatiale. La table suivante décrit les options disponibles, avec des remarques concernant les modifications que vous pouvez apporter en fonction du type de jeu de données en entrée :

Paramètres de géométrie


Paramètre	Description	Fichiers délimités	Fichier de formes	Fichiers ORC	Fichiers Parquet
Géométrie	Type de géométrie. Les options sont Point, Polyline (Polyligne), Polygon (Polygone) ou None (Aucune). En l’absence de géométrie (None (Aucune)), le jeu de données est une table.	Modifiable	Modification impossible	Modifiable	Modifiable
Référence spatiale (WKID/WKT)	La référence spatiale du jeu de données. Cette option est affichée uniquement si le type de géométrie n’est pas Aucune.	Modifiable. Par défaut, sa valeur est 4326, WGS 1984.	Modification impossible	Modifiable	Modifiable
Type de format de la géométrie	Mode de mise en forme de la géométrie pour chaque entité. Les options sont XYZ (les champs qui représentent les valeurs x, y et éventuellement z – XYZ est applicable uniquement aux points), WKT (Well Known Text), WKB (Well-Known Binary), GeoJson, EsriJson et EsriShape. Cette option est affichée uniquement si le type de géométrie n’est pas Aucune.	Modifiable	Indisponible, l’option n’apparaît pas	Modifiable	Modifiable
Champs de géométrie	Il est possible d’indiquer quels champs représentent les géométries. Dans certains cas, le champ doit être d’un type spécifique. Un champ binaire est requis pour les formats WKB et EsriShape, et un champ de type chaîne est requis pour les formats GeoJSON et EsriJSON. Les champs XYZ doivent être des champs numériques. Cette option est affichée uniquement si le type de géométrie n’est pas Aucune.	Modifiable	Indisponible, l’option n’apparaît pas	Modifiable	Modifiable

Durée

La section de durée présente la manière dont la durée est représentée. Le tableau suivant décrit les options disponibles, avec des remarques concernant les modifications que vous pouvez apporter en fonction du type de jeu de données en entrée. Les options temporelles sont les mêmes pour tous les types de données, sauf indication contraire.

Paramètres de durée


Paramètre	Description	Exemple
Type de temps	Type de temps en entrée. Les options sont Instant (un moment donné), Interval (Intervalle) (un laps de temps, avec une heure de début et de fin) et None (Aucun).	Instant
Time fields (Champs de date/heure), Start time fields (Champs de date/heure de début) et End time fields (Champs de date/heure de fin)	Si vous sélectionnez Instant, l’option Time fields (Champs de date/heure) est affichée. Si vous sélectionnez Interval (Intervalle), les options Start time fields (Champs de date/heure de début) et End time fields (Champs de date/heure de fin) sont affichées. Ces options indiquent les champs et la mise en forme utilisés pour définir le temps dans vos données en entrée. L’heure peut utiliser un ou plusieurs champs pour sa définition, ainsi qu’un ou plusieurs formats pour un seul champ. Par défaut, le premier champ nommé « time » est utilisé comme champ de date/heure, avec une estimation du format de date/heure. S’il existe un shapefile, le premier champ de type « date » est utilisé. Une ligne au moins doit être renseignée pour ces tableaux. Pour en savoir plus sur la mise en forme, reportez-vous aux formats de date/heure. Le tableau de mise en forme du temps n’est disponible que si la valeur de Time Type (Type de temps) n’est pas None (Aucun).	Exemple avec un seul champ utilisé pour la date et l’heure avec deux formats différents : Field (Champ) - TimeField Format - aa/MM/jj hh:mm:ss Field (Champ) - TimeField Format -aaaa-MMM-jj hh:mm:ss Exemple avec deux champs utilisés pour la date et l’heure Field (Champ) - DateField Format - aa/MM/jj Field (Champ) - TimeField Format - hh:mm:ss
Fuseau horaire	Fuseau horaire du temps en entrée. Cette option n'est disponible que si la valeur Time Type (Type d’heure) est différente de None (Aucun). Le fuseau horaire par défaut est UTC.	UTC

Formats d'heure

Le tableau suivant indique comment représenter la mise en forme de la date et de l’heure. Tous les exemples expliquent comment représenter l’heure 21:45:02.05 le 2 janvier 2016.

Formats temporels dans les partages de fichiers Big Data


Format	Signification	Exemple
aa	L'année, représentée par deux chiffres.	16
aaaa	L'année, représentée par quatre chiffres.	2016
MM	Le mois, représenté numériquement.	01 ou 1
MMM	Le mois, représenté avec trois lettres.	Jan
MMMM	Le mois, représenté avec l'orthographe complète.	January
jj	La date	02 ou 2
HH	L’heure, avec un jour de 24 heures et des valeurs comprises entre 0 et 23.	21
hh	L’heure, avec un jour de 12 heures et des valeurs comprises entre 1 et 12.	9
mm	La minute, avec des valeurs comprises entre 0 et 59.	45
ss	La seconde, avec des valeurs comprises entre 0 et 59.	02
SSS	La milliseconde, avec des valeurs comprises entre 0 et 999.	50
a	Symbole ponctuel AM/PM.	PM
epoch_millis	Le temps en millisecondes, d’epoch.	1509581781000
epoch_seconds	Le temps en secondes, d’epoch.	1509747601
Z	Le décalage du fuseau horaire exprimé en heures.	-0100 ou -01:00
ZZZ	Le décalage du fuseau horaire exprimé à l’aide d’ID.	America/Los_Angeles
''	Utilisez les guillemets simples pour ajouter du texte qui ne représente pas une valeur décrite dans cette table.	'T'

Le tableau suivant fournit des exemples de différents formats de la même date : 2 janvier 2016 à 21:45:02.05 :

Exemples de format temporel :


Date en entrée	Format
01/02/2016 9:45:02PM	MM/jj/aaaa hh:mm:ssa
Jan02-16 21:45:02	MMMjj-aa HH:mm:ss
2 janvier 2016 9:45:02.050PM	MMMM jj aaaa hh:mm:ss.SSSa
01/02/2017T9:45:14:05-0000	MM/jj/aaaa'T'HH:mm:ssZ

Fichier

La section relative au fichier indique le format des données. Les données peuvent respecter l'un des formats suivants :

Fichier de formes (.shp)
Fichier délimité (par exemple, .csv)
Fichier Parquet
Fichier ORC

Les paramètres disponibles varient selon le jeu de données. Pour les shapefiles, les fichiers ORC et Parquet, le seul paramètre est le type de fichier, qui ne peut pas être modifié. Si le jeu de données en entrée est un fichier délimité, plusieurs paramètres peuvent être modifiés. Pour modifier les valeurs d’un fichier délimité, utilisez un fichier d’astuces et régénérez le manifeste. Ces paramètres sont décrits dans le tableau suivant :

Formats de jeux de données


Paramètre	Description
Extension de fichier	Répertorie l'extension du type de fichier dans le jeu de données en entrée. Les formats courants sont .csv et .txt.
Délimiteur de champ	Détermine le délimiteur de chaque champ. Les formats courants sont , et ;.
Terminateur d'enregistrement	Détermine le terminateur de chaque ligne de données. Les formats courants sont \n et \t.
Guillemet	Détermine le caractère utilisé pour les guillemets.
Contient une ligne d'en-têtes	Une valeur booléenne qui détermine si la table en entrée comprend une ligne d’en-tête. Si une ligne d'en-têtes est comprise, les en-têtes sont utilisés pour les noms de champs. Les informations sur les noms de champs permettent de prévoir les champs de géométrie et d'heure.
Codage	Le type de code utilisé sur le fichier. Par défaut, la valeur est UTF-8.

Paramètres de mise à jour des modèles en sortie des partages de fichiers Big Data

L’éditeur de modèles en sortie des partages de fichiers Big Data se compose des trois sections suivantes :

Nom et type de fichier
Mise en forme de la géométrie
Mise en forme de la date et de l’heure

Remarque :

Les partages de fichiers Big Data en entrée comportent une section de champs. Les modèles en sortie n’en comportent pas, car les champs obtenus sont déterminés par l’GeoAnalytics Tools générant le résultat. ORC ne prend en charge que les noms de champ comportant des caractères de l’alphabet latin de base et des caractères numériques. Tous les autres caractères d’un nom de champ sont remplacés par un trait de soulignement.

Formats de géométrie en sortie

La section relative à la géométrie indique la mise en forme souhaitée de la géométrie en sortie pour chaque type de géométrie (point, ligne, polygone). La définition de la géométrie en sortie se divise en deux parties :

La référence spatiale - Vous pouvez laisser cette section vide, auquel cas les résultats des outils sont utilisés (comportement par défaut). Vous pouvez également indiquer une chaîne WKID ou WKT, auquel cas tous les résultats sont projetés selon cette référence spatiale. Cette valeur est partagée dans toutes les géométries en sortie.
Les champs et le type de mise en forme de la géométrie - Vous trouverez ci-après une description détaillée.

Vous pouvez, pour chaque modèle, définir la façon dont vous voulez mettre en forme la géométrie du jeu de données, ainsi que les noms de champ qui représentent la géométrie. Selon le type de jeu de données (fichiers délimités, shapefiles, fichiers ORC ou Parquet), vous pouvez générer des résultats dans différents formats. Les shapefiles n’ont pas de format spécifique et écrivent toujours un jeu de données de shapefile. La table suivante indique ces formats :

Formats de géométrie en sortie


Type de géométrie	Champs en sortie	Fichiers délimités	Fichier de formes	Fichiers ORC	Fichiers Parquet
XYZ : champ X, Y, et éventuellement Z. Cette option est disponible uniquement pour les points.	Par défaut, trois nouveaux champs sont créés : X, Y et Z. Vous êtes libre de renommer ces champs.
WKT	Par défaut, un nouveau champ est créé : Geometry. Vous êtes libre de renommer le champ en sortie.
GeoJSON	Par défaut, un nouveau champ est créé : Geometry. Vous êtes libre de renommer le champ en sortie.
EsriJSON	Par défaut, un nouveau champ est créé : Geometry. Vous êtes libre de renommer le champ en sortie.
WKB	Par défaut, un nouveau champ est créé : Geometry. Vous êtes libre de renommer le champ en sortie.
EsriShape	Par défaut, un nouveau champ est créé : Geometry. Vous êtes libre de renommer le champ en sortie.

Formats de date/heure en sortie

La section temporelle indique la représentation du temps en sortie. La mise en forme des données temporelles requiert les informations suivantes :

Mise en forme pour les instants et les intervalles.
Les noms de champ dans lesquels les données temporelles sont écrites.
Le format (Chaîne ou Date) dans lequel les données temporelles sont écrites. Notez que les fichiers délimités peuvent uniquement être au format de chaîne.
Pour les intervalles, dont les champs représentent l’heure de début et de fin.

La mise en forme temporelle est la même que pour les fichiers de Big Data en entrée. Reportez-vous à la section Formats temporels dans les partages de fichiers Big Data.

Format de jeu de données en sortie

La section de format de jeu de données indique le format en sortie dans lequel les données sont écrites. Les données peuvent respecter l'un des formats suivants :

Fichier de formes (.shp)
Fichier délimité (par exemple, .csv)
Fichier Parquet
Fichier ORC

Les paramètres disponibles varient selon le jeu de données. Pour les shapefiles, les fichiers ORC et Parquet, le seul paramètre est le type de fichier, qui ne peut pas être modifié. Si le jeu de données est un fichier délimité, plusieurs paramètres peuvent être modifiés dans ArcGIS Server Manager. Ces paramètres sont décrits dans le tableau suivant :

Formats de jeux de données


Paramètre	Description
Extension de fichier	Les extensions ne sont jamais appliquées à un jeu de données en sortie.
Délimiteur de champ	Détermine le délimiteur de chaque champ. Les formats courants sont , et ;.
Terminateur d'enregistrement	Le terminateur de chaque ligne de données ne peut pas être défini. Pour Windows, le terminateur est \r\n. Pour Linux, il s’agit de \n.
Guillemet	Détermine le caractère utilisé pour les guillemets.
Contient une ligne d'en-têtes	Valeur booléenne qui détermine si la table en sortie comprend une ligne d’en-tête représentant les noms des champs. La valeur par défaut est true.
Codage	Il s’agit toujours d’UTF-8.

Vous avez un commentaire à formuler concernant cette rubrique ?

Remarque :

Modifier les partages de fichiers Big Data

Mettre à jour les jeux de données en entrée d’un partage de fichiers Big Data

Supprimer les jeux de données en entrée d’un partage de fichiers Big Data

Mettre à jour un manifeste de partage de fichiers Big Data ou un fichier d'astuces

Conseil :

Synchroniser un partage de fichiers Big Data

Remarque :

Créer, modifier et afficher des modèles en sortie

Mise à jour des paramètres des partages de fichiers Big Data

Champs

Géométrie

Paramètres de géométrie

Durée

Paramètres de durée

Formats d'heure

Formats temporels dans les partages de fichiers Big Data

Exemples de format temporel :

Fichier

Formats de jeux de données

Paramètres de mise à jour des modèles en sortie des partages de fichiers Big Data

Remarque :

Formats de géométrie en sortie

Formats de géométrie en sortie

Formats de date/heure en sortie

Format de jeu de données en sortie

Formats de jeux de données

Dans cette rubrique