Skip To Content

Primeros pasos con recursos compartidos de archivos de big data

Nota:

En la versión 10.9.1 o posteriores, registre el recurso compartido de archivos de big data a través de la página de Contenido de su portal. Esta es la forma recomendada de registrar recursos compartidos de archivos de big data. Utilice únicamente Server Manager para editar si su recurso compartido de archivos de big data se creó con Server Manager y no lo ha sustituido por un recurso compartido de archivos de big data en el portal.

Un recurso compartido de archivos de big data es un elemento creado en su portal que hace referencia a una ubicación disponible para su ArcGIS GeoAnalytics Server. Puede utilizar la ubicación del recurso compartido de archivos de big data como entrada y salida de datos de entidad (datos de puntos, polilíneas, polígonos y tabulares) de herramientas de GeoAnalytics. Al crear un recurso compartido de archivos de big data a través de la página de contenido del portal, se crean por lo menos dos elementos en el portal:

  • Un elemento de data store (recurso compartido de archivos de big data)
  • Un elemento de recurso compartido de archivos de big data
  • Un elemento de data store (ubicación de almacenamiento en la nube), si está registrando un data store de almacenamiento en la nube para un recurso compartido de archivos de big data
El elemento de recurso compartido de archivos de big data apunta a un servicio de catálogo de big data, que describe los datasets del recurso compartido de archivos de big data y su esquema, incluida información sobre el tiempo y la geometría, así como los formatos de salida –llamados plantillas– que ha registrado. Al usar un recurso compartido de archivos de big data para la entrada de una herramienta de ArcGIS GeoAnalytics Server, puede ir al elemento de recurso compartido de archivos de big data para ejecutar un análisis en un dataset.

Nota:

Un recurso compartido de archivos de big data solo está disponible si el administrador del portal ha habilitado GeoAnalytics Server. Para obtener más información sobre la habilitación de GeoAnalytics Server, consulte Configurar ArcGIS GeoAnalytics Server.

Archivos compartidos de Big Data

Usar un recurso compartido de archivos de big data aporta grandes ventajas:

  • Sus datos pueden permanecer en una ubicación accesible hasta que esté preparado para realizar el análisis. Un recurso compartido de archivos de big data accede a los datos cuando se ejecuta el análisis. De este modo, puede seguir agregando datos a un dataset existente de su recurso compartido de archivos de big data sin tener que volver a registrar o publicar los datos.
  • También puede modificar el manifiesto para eliminar, agregar o actualizar datasets en el recurso compartido de archivos de big data.
  • Los archivos compartidos de big data son sumamente flexibles en cuanto a la definición de la hora y de la geometría y admiten el uso de varios formatos de hora en un solo dataset.
  • Los recursos compartidos de archivos de big data también permiten dividir los datasets y seguir tratando varias particiones como un único dataset.
  • Usar recursos compartidos de archivos de big data para datos de salida permite almacenar los resultados con formatos que puede usar en otros flujos de trabajo, como un archivo de parquet para mayor análisis o almacenamiento.

Nota:

Solo se puede acceder a los recursos compartidos de archivos de big data cuando se ejecuta GeoAnalytics Tools. Esto significa que solo puede examinar y agregar recursos compartidos de archivos de big data para el análisis y que no los puede visualizar en un mapa.

Los recursos compartidos de archivos de big data pueden hacer referencia a las siguientes fuentes de datos de entrada:

  • Archivo compartido: un directorio de datasets en un disco local o en una red compartida.
  • Apache Hadoop Distributed File System (HDFS): un directorio de datasets de HDFS.
  • Apache Hive: bases de datos de metastore Hive.
  • Almacenamiento en la nube: un bucket de Amazon Simple Storage Service (S3), un contenedor BLOB de Microsoft Azure o un almacén Gen2 de Microsoft Azure Data Lake Storage que contiene un directorio de datasets.

Al escribir resultados en un recurso compartido de archivos de big data, puede usar las siguientes salidas de GeoAnalytics Tools:

  • Recurso compartido de archivos
  • HDFS
  • Ubicación de almacenamiento en la nube

Los siguientes tipos de archivos se admiten como datasets para recursos compartidos de archivos de big data de entrada y salida:

  • Archivos delimitados (por ejemplo, .csv, .tsv y .txt)
  • Shapefiles (.shp)
  • Archivos PARQUET (.parquet)
    Nota:

    Solo se admiten los archivos PARQUET no cifrados.

  • Archivos ORC (.orc)

Los recursos compartidos de archivos de big data son una de las diversas maneras en que GeoAnalytics Tools puede acceder a sus datos y no son un requisito para GeoAnalytics Tools Consulte Usar GeoAnalytics Tools en Map Viewer Classic para obtener una lista de posibles entradas y salidas de datos en GeoAnalytics Tools.

Puede registrar tantos recursos compartidos de archivos de big data como necesite. Cada recurso compartido de archivos de big data puede tener tantos datasets como desee. Consulte Agregar un recurso compartido de archivos de big data para obtener instrucciones sobre cómo registrar un recurso compartido de archivos de big data en el sitio de GeoAnalytics Server.

La siguiente tabla muestra algunos términos importantes en lo referente a recursos compartidos de archivos de big data.

PlazoDescripción

Recurso compartido de archivos de big data

Una ubicación registrada con su GeoAnalytics Server para usarse como entrada o salida de dataset o como ambas en GeoAnalytics Tools.

Servicio de catálogo de big data

Un servicio que describe los esquemas y datasets de entrada, así como los nombres de las plantillas de salida de su recurso compartido de archivos de big data. Se crea al registrar el recurso compartido de archivos de big data, así como el manifiesto.

Para obtener más información sobre los servicios de catálogo de big data, consulte la documentación de Servicio de catálogo de big data en la ayuda de la API REST de ArcGIS Services.

Elemento de recurso compartido de archivos de big data

Un elemento del portal que hace referencia al servicio de catálogo de big data. Puede controlar quién puede usar su recurso compartido de archivos de big data como entrada en GeoAnalytics si comparte este elemento en el portal.

Manifiesto

Un archivo JSON que describe los datasets disponibles y el esquema para las entradas en su recurso compartido de archivos de big data. El manifiesto se genera automáticamente al registrar el recurso compartido de archivos de big data y puede modificarlo editando o usando un archivo de sugerencias. Un único recurso compartido de archivos de big data tiene un manifiesto.

Plantillas de salida

Una o más plantillas que describen un tipo de archivo y un formato opcional al escribir resultados en un recurso compartido de archivos de big data. Por ejemplo, una plantilla podría especificar que los resultados estén escritos en un shapefile. Un recurso compartido de archivos de big data puede no tener ninguna plantilla de salida o tener una o varias.

Tipo de recurso compartido de archivos de big data

El tipo de ubicaciones que registra. Por ejemplo, podría tener un recurso compartido de archivos de big data o escribir HDFS.

Formato de dataset de recurso compartido de archivos de big data

El formato de los datos que lee o escribe. Por ejemplo, el tipo de archivo podría ser un shapefile.

Archivo de sugerencias

Un archivo opcional que puede usar para ayudar a generar un manifiesto para archivos delimitados usados como entrada.

Preparar los datos para registrarlos como un archivo compartido de Big Data

Para utilizar sus datasets como entradas en un recurso compartido de archivos de big data, asegúrese de que los datos tengan el formato correcto. Consulte a continuación el formato basado en el tipo de recurso compartido de archivos de big data.

Archivos compartidos y HDFS

Para preparar los datos para un recurso compartido de archivos de big data, debe formatear los datasets como subcarpetas en una única carpeta principal que se registrará. En esta carpeta principal que usted registra, los nombres de las subcarpetas representan los nombres de los datasets. Si las subcarpetas contienen varias carpetas o archivos, todo el contenido de las subcarpetas de nivel superior se lee como un único dataset y debe compartir el mismo esquema. En el siguiente ejemplo se describe cómo se registra la carpeta FileShareFolder que contiene tres datasets, denominada Earthquakes, Hurricanes y GlobalOceans. Cuando registra una carpeta principal, todos los subdirectorios de la carpeta que especifica también se registran con el GeoAnalytics Server. Registre siempre la carpeta principal (por ejemplo, \\machinename\FileShareFolder) que contiene una o más carpetas de dataset individuales.

Ejemplo de un recurso compartido de archivos de big data que contiene tres datasets: Earthquakes, Hurricanes y GlobalOceans.


|---FileShareFolder                 < -- The top-level folder is what is registered as a big data file share
   |---Earthquakes                  < -- A dataset "Earthquakes", composed of 4 csvs with the same schema
      |---1960
         |---01_1960.csv
         |---02_1960.csv
      |---1961
         |---01_1961.csv
         |---02_1961.csv
   |---Hurricanes                   < -- The dataset "Hurricanes", composed of 3 shapefiles with the same schema
      |---atlantic_hur.shp
      |---pacific_hur.shp
      |---otherhurricanes.shp
   |---GlobalOceans                 < -- The dataset "GlobalOceans", composed of a single shapefile
      |---oceans.shp

Esta misma estructura se aplica a los archivos compartidos y a HDFS, aunque la terminología sea diferente. En un archivo compartido, hay una carpeta o directorio de nivel superior, así como datasets representados por los subdirectorios. En HDFS, la ubicación del archivo compartido se registra y contiene datasets. La tabla siguiente describe las diferencias:

Recurso compartido de archivosHDFS

Ubicación del recurso compartido de archivos de big data

Una carpeta o directorio

Ruta de HDFS

Datasets

Subcarpetas de nivel superior

Datasets dentro de la ruta de HDFS

Una vez que los datos están organizados como una carpeta con subcarpetas de dataset, haga que los datos estén accesibles para GeoAnalytics Server siguiendo los pasos descritos en Hacer que sus datos sean accesibles para ArcGIS Server y registrando la carpeta del dataset o la ruta HDFS a través del portal.

Hive

En Hive, todas las tablas de una base de datos se reconocen como datasets en un recurso compartido de archivos de big data. En el ejemplo siguiente existe un metastore con dos databases, default y CityData. Cuando registra un recurso compartido de archivos de big data de Hive, solo se puede seleccionar una base de datos. En este ejemplo, si se ha seleccionado la base de datos CityData, habrá dos datasets en el recurso compartido de archivos de big data, FireData y LandParcels.


|---HiveMetastore                 < -- The top-level folder is what is registered as a big data file share
   |---default                    < -- A database
      |---Earthquakes
      |---Hurricanes
      |---GlobalOceans
   |---CityData				            < -- A database that is registered (specified in Server Manager)
      |---FireData
      |---LandParcels

Data stores de almacenamiento en la nube

Para preparar los datos para un recurso compartido de archivos de big data en una ubicación de almacenamiento en la nube, debe formatear los datasets como subcarpetas en una sola carpeta principal.

A continuación, se proporciona un ejemplo del modo de estructurar los datos. En este ejemplo se registra la carpeta principal, FileShareFolder, que contiene tres datasets: Earthquakes, Hurricanes y GlobalOceans. Cuando registra una carpeta principal, todos los subdirectorios de la carpeta que especifica también se registran con GeoAnalytics Server.

Ejemplo de la forma de estructurar los datos en una ubicación de almacenamiento en la nube que se usará como recurso compartido de archivos de big data. Este archivo de big data contiene tres datasets: Earthquakes, Hurricanes y GlobalOceans.


|---Cloud Store                          < -- The cloud storage location being registered
   |---Container or S3 Bucket Name       < -- The container (Azure) or bucket (Amazon) being registered as part of the cloud storage data store
      |---FileShareFolder                < -- The parent folder that is registered as the 'folder' during cloud storage registration
         |---Earthquakes                 < -- The dataset "Earthquakes", composed of 4 csvs with the same schema
            |---1960
               |---01_1960.csv
               |---02_1960.csv
            |---1961
               |---01_1961.csv
               |---02_1961.csv
         |---Hurricanes                  < -- The dataset "Hurricanes", composed of 3 shapefiles with the same schema
            |---atlantic_hur.shp
            |---pacific_hur.shp
            |---otherhurricanes.shp
         |---GlobalOceans                < -- The dataset "GlobalOceans", composed of 1 shapefile
            |---oceans.shp

Administrar recursos compartidos de archivos de big data en un portal

Una vez que haya creado un recurso compartido de archivos de big data, puede revisar los datasets que contiene y las plantillas que describen cómo se escribirán los resultados guardados en los recursos compartidos de archivos de big data.

Modificar un recurso compartido de archivos de big data

Cuando se crea un elemento de recurso compartido de archivos de big data, se genera y carga automáticamente un manifiesto para los datos de entrada. Puede que el proceso de generación de un manifiesto no siempre calcule correctamente los campos que representan la geometría y el tiempo, por lo que es posible que deba aplicar ediciones. Para editar un manifiesto y cómo se representan los datasets, siga los pasos que se indican en Editar recursos compartidos de archivos de big data. Para obtener más información sobre el manifiesto de recursos compartidos de archivos de big data, consulte Manifiesto de recursos compartidos de archivos de big data en la ayuda de ArcGIS Server.

Si creó su recurso compartido de archivos de big data en ArcGIS Server usando Manager, siga los pasos que se indican en Editar manifiestos de recursos compartidos de archivos de big data en Server Manager.

Modificar plantillas de salida de un recurso compartido de archivos de big data

Si opta por usar el recurso compartido de archivos de big data como ubicación de salida, se generan automáticamente plantillas de salida. Dichas plantillas describen el formato de los resultados del análisis de salida, por ejemplo, el tipo de archivo y cómo se registrarán el tiempo y la geometría. Tiene la opción de modificar las plantillas si desea modificar el formato del tiempo o la geometría, así como agregar o eliminar plantillas. Para editar las plantillas de salida, siga los pasos que se indican en Crear, editar y ver plantillas de salida. Para obtener más información sobre plantillas de salida, consulte Plantillas de salida en un recurso compartido de archivos de big data.

Si creó su recurso compartido de archivos de big data en ArcGIS Server usando Manager, siga los pasos que se indican en Editar manifiestos de recursos compartidos de archivos de big data en Server Manager.

Migrar recursos compartidos de archivos de big data creados en Server Manager a un portal

Los recursos compartidos de archivos de big data creados con un portal tienen muchas ventajas sobre los recursos compartidos de archivos de big data creados en Server Manager, por ejemplo:

  • Una experiencia de usuario mejorada para facilitar la edición de datasets.
  • Experiencia más sencilla para registrar sus recursos compartidos de archivos de big data.
  • Los elementos se almacenan y comparten con las credenciales del portal

Se recomienda crear un elemento de data store para los archivos compartidos de big data que creó en Server Manager. En algunos casos, es necesario. En los siguientes casos, debe migrar recursos compartidos de archivos de big data para que sean elementos de data store en el portal para poder seguir usándolos:

  • Recursos compartidos de archivos de big data basados en un data store de almacenamiento en la nube de Microsoft Azure Data Lake Storage Gen1.

Para migrar un recurso compartido de archivos de big data que creó en Server Manager a un elemento de data store del portal, asegúrese de tener lo siguiente:

  • Las credenciales y la ubicación de archivo de su recurso compartido de archivos de big data configurado.
  • Si corresponde, las credenciales y la ubicación del archivo de su data store de almacenamiento en la nube configurado.
Una vez que conozca las credenciales, siga estos pasos:

  1. Inicie sesión en Server Manager en su sitio de GeoAnalytics Server.
  2. Vaya a Sitio > Data Stores. Haga clic en el botón Editar en el recurso compartido de archivos de big data que desea migrar.
  3. Vaya a Avanzado > Manifiesto. Haga clic en el botón Descargar para guardar el manifiesto.
  4. Si tiene alguna sugerencia, siga los mismos pasos para las sugerencias. Haga clic en SugerenciasDescargar para guardar el archivo de sugerencias. Cambie el nombre de la extensión de archivo de .dat a .txt.txt.
  5. Si tiene plantillas de salida en la sección AvanzadoPlantillas de salida, copie el texto y guárdelo en un archivo de texto.
  6. Cree un recurso compartido de archivos de big data en la página Contenido del portal utilizando el mismo tipo y ubicación de entrada que se utilizó anteriormente.

    Si no conoce las credenciales, su administrador puede encontrarlas en Server Administrator utilizando la opción decrypt=true en los elementos del data store de almacenamiento en la nube y recursos compartidos de big data.

    Siga los pasos de Agregar un elemento de data store y usa las mismas credenciales y ubicación que el recurso compartido de archivos de big data existente.

  7. Una vez creado el elemento de archivos compartidos de big data, haga clic en Datasets y active la opción Mostrar avanzado.
  8. Cargue el manifiesto que guardó anteriormente haciendo clic en Cargar en la sección del manifiesto. Vaya al archivo JSON de manifiesto que se guardó anteriormente y haga clic en Cargar. Haga clic en el botón Sincronizar para que los cambios se reflejen.
  9. Si tiene que cargar un archivo de sugerencias, siga los mismos pasos y cargue el archivo de sugerencias bajo la opción Mostrar avanzado > Sugerencias > Cargar. Haga clic en el botón Sincronizar para que los cambios se reflejen.
  10. Para cargar las plantillas de salida, realice una de las siguientes acciones:

Ahora tiene un recurso compartido de archivos de big data y un manifiesto para el elemento de recurso compartido de archivos de big data en su portal. Puede actualizar sus flujos de trabajo para usar y apuntar a este recurso compartido de archivos de big data. Cuando quede conforme de que funciona de la forma esperada, elimine su recurso compartido de archivos de big data original en Server Manager.

Ejecutar análisis en un recurso compartido de archivos de big data

Puede ejecutar un análisis en un recurso compartido de archivos de big data a través de cualquier cliente que admita GeoAnalytics Server, entre los que se incluyen los siguientes:

  • ArcGIS Pro
  • Map Viewer Classic
  • API REST de ArcGIS
  • ArcGIS API for Python

Para ejecutar su análisis en un recurso compartido de archivos de big data a través de ArcGIS Pro o Map Viewer Classic, seleccione la GeoAnalytics Tools que desee usar. Para la entrada a la herramienta, acceda a la ubicación de los datos en el Portal de ArcGIS Pro o en el cuadro de diálogo Examinar capas de Map Viewer Classic. Los datos residirán en Mi contenido si ha registrado los datos usted mismo. De lo contrario, busque en Grupos o en Todo el portal. Tenga en cuenta que una capa de recurso compartido de archivos de big data seleccionada para el análisis no se visualizará en el mapa.

Nota:

Asegúrese de que ha iniciado sesión en una cuenta de portal que tiene acceso al recurso compartido de archivos de big data registrado. Puede buscar su portal con el término bigDataFileShare* para encontrar rápidamente todos los recursos compartidos de archivos de big data a los que puede acceder.

Para ejecutar un análisis en un archivo compartido de big data a través de API REST de ArcGIS, utilice como entrada la dirección URL del servicio de catálogo de big data. Si creó el recurso compartido de archivos de big data en el portal, tendrá el formato {"url":" https://webadaptorhost.domain.com/webadaptorname/rest/DataStoreCatalogs/bigDataFileShares_filesharename/"}. Por ejemplo, con un equipo denominado example, un dominio denominado esri, un Web Adaptor denominado server, un archivo compartido de big data denominado MyData y un dataset denominado Earthquakes, la dirección URL sería: {"url":" https://example.esri.com/server/rest/DataStoreCatalogs/bigDataFileShares_MyData/Earthquakes_uniqueID"}. Si creó el recurso compartido de archivos de big data en Server Manager, tendrá el formato {"url":"https://webadaptorhost.domain.com/webadaptorname/rest/DataStoreCatalogs/bigDataFileShares_filesharename/BigDataCatalogServer/dataset"}

Para obtener más información sobre la entrada al análisis de big data a través de REST, consulte el tema Entrada de entidad en la documentación de la REST API de ArcGIS Services.

Guardar resultados en un recurso compartido de archivos de big data

Puede ejecutar análisis en un dataset (recurso compartido de archivos de big data u otra entrada) y guardar los resultados en un recurso compartido de archivos de big data. Puede hacerlo mediante los siguientes clientes:

  • Map Viewer Classic
  • API REST de ArcGIS
  • ArcGIS API for Python

Cuando escribe resultados en un recurso compartido de archivos de big data, el manifiesto de entrada se actualiza para incluir el dataset que acaba de guardar. Los resultados que ha escrito en el recurso compartido de archivos de big data ya están disponibles como entrada para ejecutar otra herramienta. Si guarda los resultados en un recurso compartido de archivos de big data, no podrá visualizarlos.