Skip To Content

Décrire le jeu de données

Décrire le jeu de donnéesL’outil Décrire le jeu de données offre une vue d’ensemble des données Big Data. Par défaut, l’outil génère une couche tabulaire contenant des résumés de vos valeurs de champ et une vue d’ensemble de vos paramètres de géométrie et de temps pour la couche en entrée. L’outil peut également générer une couche d’entités représentant un échantillon de vos entités en entrée, ou une couche d’entités surfacique unique représentant l’étendue de vos entités en entrée. Vous pouvez choisir de générer l’une ou l’autre ou encore les deux.

Diagramme de workflow

Diagramme de processus Décrire le jeu de données

Analyse avec les Outils GeoAnalytics

Vous pouvez exécuter des analyses avec Outils GeoAnalytics via un traitement distribué sur plusieurs cœurs et machines ArcGIS GeoAnalytics Server. Outils GeoAnalytics et les outils d’analyse d’entités standard de ArcGIS Enterprise proposent différents paramètres et fonctionnalités. Pour en savoir plus sur ces différences, reportez-vous à la rubrique Différences entre les outils d’analyse d’entités.

Exemples

  • Vérifiez que vous avez correctement inscrit le temps et la géométrie avec votre partage de fichiers Big Data.
  • Concevez les valeurs attributaires avec des résumés statistiques des champs.
  • Visualisez vos Big Data avec un exemple de couche. Au lieu de dessiner un million d’entités, dessinez un échantillon.
  • Exécutez des processus à l’aide d’un échantillon des données avant de procéder à une mise à l’échelle nécessitant un traitement plus long et volumineux.
  • Déterminez la position d’un jeu de données en calculant l’étendue géographique.

Remarques sur l'utilisation

Accédez à la couche d’entités tabulaires, ponctuelles, linéaires ou surfaciques ou au jeu de données de partage de fichiers Big Data que vous voulez décrire avec l’option Choose dataset to describe (Choisir le jeu de données à décrire).

Générez un sous-ensemble de vos données en cliquant sur le bouton Sample layer (Exemple de couche) et en précisant le nombre d’entités dans le sélecteur de valeurs qui apparaît. Le sous-ensemble en sortie aura toujours les mêmes structure, géométrie et paramètres temporels que les entités en entrée. Utilisez le sous-ensemble pour connaître l’aspect de vos Big Data lorsqu’elles sont ajoutées à une carte ou visualisées dans une table attributaire. Vous pouvez également exécuter une analyse sur le jeu de données d’exemple pour connaître les entrées qui conviennent le mieux à une analyse plus importante sur votre jeu d’entités entier.

Générez une entité limite qui décrit l’étendue de votre jeu de données en entrée en sélectionnant Extent layer (Couche de l’étendue). La sortie sera toujours une entité rectangulaire unique représentant l’étendue géographique des entités en entrée. Utilisez la couche de l’étendue pour connaître la position de vos données ou utilisez-la en entrée ailleurs dans votre processus. Utilisez-la par exemple comme couche surfacique sur laquelle découper des entités à l’aide de l’outil GeoAnalytics Couche de découpage.

Si l’option Use current map extent (Utiliser l’étendue courante de la carte) est sélectionnée, seules les entités qui se trouvent dans l’étendue courante de la carte sont analysées. Si l’option n’est pas sélectionnée, toutes les entités en entrée qui se trouvent dans la couche en entrée sont analysées, même si elles se trouvent en dehors de l’étendue courante de la carte. Par exemple, si vous avez choisi de générer une couche d’exemple et que l’option Use current map extent (Utiliser l’étendue courante de la carte) n’est pas sélectionnée, le jeu de données entier est utilisé pour les résultats d’exemple. Si vous avez choisi de générer une couche d’étendue avec l'option Use current map extent (Utiliser l’étendue courante de la carte) sélectionnée, la limite en sortie représente l’étendue de la carte.

Par défaut, l’outil génère une table contenant les résumés statistiques de chaque champ et une chaîne JSON décrivant les propriétés de la couche en entrée. Pour accéder à la chaîne JSON, cliquez sur le bouton Show Result (Afficher le résultat) Afficher le résultat qui apparaît lorsque vous survolez la couche de la table des résumés statistiques dans la table des matières.

La chaîne JSON inclut les informations suivantes :

  • datasetName - Nom du jeu de données décrit.
  • datasetSource - Emplacements de stockage du jeu de données en entrée. Les valeurs possibles sont ArcGIS Data Store — Relational, ArcGIS Data Store — Spatiotemporal ou Big Data File Share - <your_bdfs_name>.
  • recordCount - Nombre total d’enregistrements contenus dans le jeu de données en entrée.
  • geometry - Paramètres de géométrie de la couche en entrée.
    • geometryType - Type de la géométrie utilisée par les entités en entrée. Les valeurs possibles sont Point, Line, Polygon ou Table.
    • sref - Référence spatiale utilisée par les entités en entrée. Ce paramètre peut prendre la valeur {"wkid": 26972}, où 26972 représente l’ID de référence spatiale.
    • countNonEmpty - Nombre d’entités avec une géométrie valide.
    • countEmpty - Nombre d’entités sans géométrie valide.
    • spatialExtent - Étendue géographique des entités, représentée par les valeurs de coordonnées minimale et maximale.
  • time - Paramètres temporels de la couche en entrée.
    • timeType - Type de temps représenté par les entités en entrée. Les valeurs possibles sont Instant, Interval ou None.
    • countNonEmpty - Nombre d’entités avec un temps valide.
    • countEmpty - Nombre d’entités sans temps valide.
    • temporalExtent - Étendue temporelle des entités, représentée par les valeurs de temps minimale et maximale.

Pour en savoir plus sur les paramètres temporels et les jeux de données de partage de fichiers Big Data

Pour en savoir plus sur les paramètres géométriques et les jeux de données de partage de fichiers Big Data

Limitations

La couche d’exemple ne représente pas une sélection géographique vraiment aléatoire et ne doit pas être utilisée pour connaître l’étendue géographique ou la distribution des données. Par exemple, si vous spécifiez 230 entités pour Number of features to include (Nombre d’entités à inclure), le résultat peut contenir 230 entités en entrée dans n’importe quel ordre ou emplacement.

Fonctionnement de l’outil Décrire le jeu de données

Calculs

Des résumés statistiques sont calculés pour chaque champ de la couche en entrée. Les sorties statistiques seront différentes selon le type de champ. L’exemple suivant concernant la profondeur du sol indique comment les statistiques sont calculées pour chaque type de champ :

Entités d’exemple qui seront synthétisées avec des statistiques calculées
Ces entités en entrée d’exemple vont être synthétisées et générées en tant que statistiques calculées ci-dessous.

Statistique numériqueRésultat calculé

Total

Total de :

[130, 8, 250, 0, null] = 4

Somme

130 + 8 + 250 + 0 + null = 388

Minimal

Minimum de :

[130, 8, 250, 0, null] = 0

Maximum

Maximum de :

[130, 8, 250, 0, null] = 250

Moyenne

388/4 = 97

Plage

250-0 = 250

Variance

= 13942.66667

Écart type

= 118.0791

Statistique de dateRésultat calculé

Total

Total de :

[1538738400000, 1507202400000, 1475666400000, 1412508000000, null] = 4

Minimal

Minimum de :

[1538738400000, 1507202400000, 1475666400000, 1412508000000, null] = 1412508000000

Maximum

Maximum de :

[1538738400000, 1507202400000, 1475666400000, 1412508000000, null] = 1538738400000

Plage

1538738400000-1412508000000 = 126230400000
Remarque :

Les résultats stockés dans ArcGIS Data Store sont toujours stockés en millisecondes de l’époque UTC (Coordinated Universal Time). Par exemple, l’heure UTC de 1538713350000 millisecondes est l’équivalent de vendredi 5 october 2018 16:22:30 dans le fuseau horaire GMT.

Statistique de chaîneRésultat calculé

Total

["high", "high", "high", "low", null] = 4

Tout membre de l’équipe

= "low"

Remarque :

La statistique de total (pour les chaînes et les champs numériques) comptabilise le nombre de valeurs non nulles. Le total de [0, 1, 10, 5, null, 6] = 5. Le total de [Primary, Primary, Secondary, null] = 3.

Exemple de ArcGIS API for Python

L’outil Décrire le jeu de données est disponible dans ArcGIS API for Python.

Cet exemple décrit un jeu de données de suivi d’un ouragan dans un partage de fichiers Big Data et génère un sous-ensemble de 200 entités d’ouragans et une couche d’entités.


# Import the required ArcGIS API for Python modules
import arcgis
from arcgis import geoanalytics as ga
from arcgis.gis import GIS
# Connect to your ArcGIS Enterprise portal and check that GeoAnalytics is supported
portal = GIS("https://myportal.domain.com/portal", "gis_publisher", "my_password", verify_cert=False)
if not portal.geoanalytics.is_supported():
    print("Quitting, GeoAnalytics is not supported")
    exit(1)   
# Find the big data file share dataset you're interested in using for analysis
search_result = portal.content.search("", "Big Data File Share")
# Look through search results for a big data file share with the matching name
bd_file = next(x for x in search_result if x.title == "bigDataFileShares_NaturalDistasters")
# Look through the big data file share for Hurricanes
hurricanes = next(x for x in bd_file.layers if x.properties.name == "Hurricanes")
# Run the tool Describe Dataset
result = ga.summarize_data.describe_dataset(input_layer=hurricanes, sample_size=200, extent_output=true, output_name="Hurricanes_describe")
# Visualize the sample and extent layers if you are running Python in a Jupyter Notebook
processed_map = portal.map()
processed_map.add_layer(result)
processed_map

Outils semblables

Utilisez Describe Dataset (Décrire le jeu de données) pour explorer vos données avec des exemples, des statistiques et une synthétisation. D'autres outils peuvent vous aider à résoudre des problèmes légèrement différents.

Outils d'analyse Map Viewer

Agrégez votre jeu de données en groupes ou zones et générez des résumés statistiques à l’aide de l’outil Agréger les points de ArcGIS GeoAnalytics Server.

Créez un sous-ensemble de vos données dans une zone en particulier à l’aide de l’outil Couche de découpage de ArcGIS GeoAnalytics Server.

Outils d'analyse d'ArcGIS Desktop

Pour exécuter l’outil à partir de ArcGIS Pro, votre portail actif doit être Enterprise version 10.7 ou ultérieure. Vous devez vous connecter via un compte détenteur des privilèges permettant d’effectuer une analyse d’entités GeoAnalytics.