Skip To Content

Describir dataset

Describir datasetLa herramienta Describir dataset proporciona una vista general de sus big data. De forma predeterminada, la herramienta genera una capa de tabla que contiene resúmenes de sus valores de campos, así como una vista general de los ajustes de geometría y tiempo de la capa de entrada. Opcionalmente, la herramienta puede generar una capa de entidades que representa una muestra de sus entidades de entrada, o bien una sola capa de entidades poligonales que representa la extensión de sus entidades de entrada. Tiene la opción de generar una, ambas o ninguna.

Diagrama de flujo de trabajo

Diagrama del flujo de trabajo de Describir dataset

Análisis mediante GeoAnalytics Tools

El análisis mediante GeoAnalytics Tools se ejecuta con el procesamiento distribuido en varios equipos y núcleos de ArcGIS GeoAnalytics Server. Las GeoAnalytics Tools y las herramientas de análisis de entidades estándar de ArcGIS Enterprise tienen parámetros y capacidades diferentes. Para obtener más información sobre las diferencias, consulte Diferencias de las herramientas de análisis de entidades.

Ejemplos

  • Verificar que ha registrado correctamente el tiempo y la geometría con su recurso compartido de archivos de big data.
  • Comprender los valores de los atributos mediante estadísticas de resumen de los campos.
  • Visualizar sus big data con una capa de muestra. En lugar de dibujar un millón de entidades, dibujar una muestra.
  • Ejecutar flujos de trabajo con una muestra de los datos antes de ampliar la escala a un procesamiento más largo y extenso.
  • Determinar dónde se encuentra un dataset, calculando para ello la extensión geográfica.

Notas de uso

Mediante la opción Elegir el dataset a describir, busque el dataset tabular, de puntos, líneas o área de capa de entidades o el dataset de recurso compartido de archivos de big data que desee describir.

Genere un subconjunto de sus datos haciendo clic en el botón Capa de muestra y especificando el número de entidades en el selector de valores que aparece. El subconjunto de salida siempre tendrá los mismos ajustes de esquema, geometría y tiempo que las entidades de entrada. Utilice el subconjunto para comprender qué tamaño ocupan sus big data al agregarlos a un mapa o visualizarlos en una tabla de atributos. Adicionalmente, puede ejecutar análisis con el dataset de muestra para determinar cuáles son las mejores entradas para un análisis a mayor escala de todo el dataset.

Para generar una entidad de límite que describa la extensión de su dataset de entrada, seleccione Capa de extensión. La salida siempre será una sola entidad rectangular que representa la extensión geográfica de las entidades de entrada. Utilice la capa de extensión para comprender dónde se encuentran sus datos, o utilícela como entrada de otra parte de su flujo de trabajo. Por ejemplo, utilícela como capa de área con la que recortar las entidades con la herramienta de GeoAnalytics Recortar capa.

Si la opción Usar la extensión del mapa actual está activada, solo se analizarán las entidades que estén dentro de la extensión de mapa actual. Si está desactivada, se analizarán todas las entidades de entrada de la capa de entrada, aunque estén fuera de la extensión de mapa actual. Por ejemplo, si eligió generar una capa de muestra y Usar la extensión del mapa actual no está activada, se utilizará el dataset completo para los resultados de la muestra. Si eligió generar una capa de extensión con Usar la extensión del mapa actual activada, el límite resultante representará la extensión del mapa.

De forma predeterminada, la herramienta genera una tabla que contiene estadísticas de resumen de cada campo, así como un JSON que describe las propiedades de la capa de entrada. Para acceder a la cadena JSON, haga clic en el botón Mostrar resultado Mostrar resultado que aparece al situar el puntero sobre la capa de la tabla de la estadística de resumen en la tabla de contenido.

La cadena JSON incluye la siguiente información:

  • datasetName: el nombre del dataset que se describe.
  • datasetSource: la ubicación de almacenamiento del dataset de entrada. Este valor puede ser ArcGIS Data Store — Relational, ArcGIS Data Store — Spatiotemporal o Big Data File Share - <your_bdfs_name>.
  • recordCount: la cantidad total de registros en el dataset de entrada.
  • geometry: los ajustes de geometría de la capa de entrada.
    • geometryType: el tipo de geometría que representan las entidades de entrada. Este valor puede ser Point, Line, Polygon o Table.
    • sref: la referencia espacial que usan las entidades de entrada. Por ejemplo, este valor podría ser {"wkid": 26972}, donde 26972 es el Id. de referencia espacial.
    • countNonEmpty: la cantidad de entidades con una geometría válida.
    • countEmpty: la cantidad de entidades sin una geometría válida.
    • spatialExtent: la extensión geográfica de las entidades, representada por los valores de coordenadas mínimo y máximo.
  • time: los ajustes de tiempo de la capa de entrada.
    • timeType: el tipo de tiempo que representan las entidades de entrada. Este valor puede ser Instant, Interval o None.
    • countNonEmpty: la cantidad de entidades con un tiempo válido.
    • countEmpty: la cantidad de entidades sin un tiempo válido.
    • temporalExtent: la extensión temporal de las entidades, representada por los valores de tiempo mínimo y máximo.

Más información sobre los ajustes de tiempo y los datasets de recurso compartido de archivos de big data

Más información sobre los ajustes de geometría y los datasets de recurso compartido de archivos de big data

Limitaciones

La capa de muestra no representa una selección geográfica realmente aleatoria ni debe usarse para comprender la extensión ni la distribución geográficas de sus datos. Por ejemplo, si especifica 230 entidades en Número de entidades a incluir, el resultado puede contener 230 entidades de entrada en cualquier orden o de cualquier ubicación.

Cómo funciona Describir dataset

Cálculos

Se calculan estadísticas de resumen para cada campo de la capa de entrada. Los campos generarán salidas estadísticas diferentes en función del tipo de campo. El siguiente ejemplo de profundidad del suelo muestra cómo se calculan las estadísticas de cada tipo de campo:

Entidades de ejemplo que se resumirán con estadísticas calculadas
Estas entidades de entrada de ejemplo se resumirán y generarán como estadísticas calculadas a continuación.

Estadística numéricaResultado calculado

Calcular

Recuento de:

[130, 8, 250, 0, null] = 4

Suma

130 + 8 + 250 + 0 + null = 388

Mínimo

Mínimo de:

[130, 8, 250, 0, null] = 0

Máximo

Máximo de:

[130, 8, 250, 0, null] = 250

Mean

388/4 = 97

Rango

250-0 = 250

Varianza

= 13942.66667

Desviación estándar

= 118.0791

Estadística de fechaResultado calculado

Calcular

Recuento de:

[1538738400000, 1507202400000, 1475666400000, 1412508000000, null] = 4

Mínimo

Mínimo de:

[1538738400000, 1507202400000, 1475666400000, 1412508000000, null] = 1412508000000

Máximo

Máximo de:

[1538738400000, 1507202400000, 1475666400000, 1412508000000, null] = 1538738400000

Rango

1538738400000-1412508000000 = 126230400000
Nota:

Los resultados almacenados en ArcGIS Data Store siempre se almacenan en milisegundos desde epoch en la hora universal coordinada (UTC). Por ejemplo, la hora UTC de 1538713350000 milisegundos equivale al viernes 5 de octubre de 2018 a las 16:22:30 horas en la zona horaria GMT.

Estadísticas de cadena de caracteresResultado calculado

Calcular

["high", "high", "high", "low", null] = 4

Cualquier miembro de equipo de

= "low"

Nota:

La estadística de recuento (para campos de cadena de caracteres y numéricos) cuenta el número de valores no vacíos. El recuento de [0, 1, 10, 5, null, 6] = 5. El recuento de [Primary, Primary, Secondary, null] = 3.

Ejemplo de ArcGIS API for Python

La herramienta Describir dataset está disponible a través de ArcGIS API for Python.

En este ejemplo se describe un dataset de rastreo de un huracán en un recurso compartido de archivos de big data y genera un subconjunto de 200 entidades de huracanes y una capa de extensión.


# Import the required ArcGIS API for Python modules
import arcgis
from arcgis import geoanalytics as ga
from arcgis.gis import GIS
# Connect to your ArcGIS Enterprise portal and check that GeoAnalytics is supported
portal = GIS("https://myportal.domain.com/portal", "gis_publisher", "my_password", verify_cert=False)
if not portal.geoanalytics.is_supported():
    print("Quitting, GeoAnalytics is not supported")
    exit(1)   
# Find the big data file share dataset you're interested in using for analysis
search_result = portal.content.search("", "Big Data File Share")
# Look through search results for a big data file share with the matching name
bd_file = next(x for x in search_result if x.title == "bigDataFileShares_NaturalDistasters")
# Look through the big data file share for Hurricanes
hurricanes = next(x for x in bd_file.layers if x.properties.name == "Hurricanes")
# Run the tool Describe Dataset
result = ga.summarize_data.describe_dataset(input_layer=hurricanes, sample_size=200, extent_output=true, output_name="Hurricanes_describe")
# Visualize the sample and extent layers if you are running Python in a Jupyter Notebook
processed_map = portal.map()
processed_map.add_layer(result)
processed_map

Herramientas similares

Use Describir dataset cuando desee explorar sus datos mediante muestras, estadísticas y resúmenes. Existen otras herramientas que pueden resultar de utilidad para solucionar problemas similares, aunque ligeramente diferentes.

Herramientas de análisis del Map Viewer

Consolide su dataset en bins o áreas y genere estadísticas de resumen mediante la herramienta Consolidar puntos ArcGIS GeoAnalytics Server.

Cree un subconjunto de sus datos dentro de un área determinada mediante la herramienta Recortar capa ArcGIS GeoAnalytics Server.

Herramientas de análisis de ArcGIS Desktop

Para ejecutar esta herramienta desde ArcGIS Pro, su portal activo debe ser Enterprise 10.7 o posterior. Debe iniciar sesión utilizando una cuenta que tenga privilegios para realizar análisis de entidades de GeoAnalytics.