Primeros pasos con recursos compartidos de archivos de big data—Portal for ArcGIS

Acerca de archivos compartidos de Big Data

Un recurso compartido de archivos de big data es un elemento creado en su portal que hace referencia a datos de entidades (puntos, polilíneas, polígonos o datos tabulares) en una ubicación disponible para su ArcGIS GeoAnalytics Server. El elemento del recurso compartido de archivos de big data en el portal le permite examinar los datos registrados desde herramientas de ArcGIS GeoAnalytics Server. Los recursos compartidos de archivos de big data pueden hacer referencia a los siguientes orígenes de datos:

Archivo compartido: un directorio de datasets en un disco local o en una red compartida.
HDFS: directorio de datasets Apache Hadoop Distributed File System (HDFS).
Hive: bases de datos de Apache Hive Metastore.
Almacén en la nube: un depósito de Amazon Simple Storage Service (S3), un contenedor BLOB de Microsoft Azure o un almacén de Microsoft Azure Data Lake que contiene un directorio de datasets.
Nota:
La compatibilidad con el almacén de Microsoft Azure Data Lake se agrega en ArcGIS Enterprise 10.6.1.

Nota:

Un recurso compartido de archivos de big data solo está disponible para usarse si el administrador del portal ha habilitadoGeoAnalytics Server. Para obtener más información sobre cómo habilitar GeoAnalytics Server, consulte Configurar ArcGIS GeoAnalytics Server.

El uso de un archivo compartido de Big Data común a todos los orígenes de datos aporta varias ventajas. Sus datos pueden permanecer en una ubicación accesible hasta que esté preparado para realizar el análisis. Un recurso compartido de archivos de big data accede a los datos cuando se ejecuta el análisis. De este modo, puede seguir agregando más datos a un dataset existente de su recurso compartido de archivos de big data sin tener que volver a registrar o publicar los datos. También puede modificar el manifiesto para eliminar, agregar o actualizar datasets en el recurso compartido de archivos de big data. Los recursos compartidos de archivos de big data son sumamente flexibles en cuanto a la definición de la hora y de la geometría, y admiten el uso de varios formatos de hora en un solo dataset. Los recursos compartidos de archivos de big data también permiten dividir los datasets y seguir tratando varias particiones como un único dataset.

Nota:

Solo se puede acceder a los recursos compartidos de archivos de big data cuando se ejecuta GeoAnalytics Tools. Esto significa que solo puede examinar y agregar recursos compartidos de archivos de big data para el análisis y que no los puede visualizar en un mapa.

Los recursos compartidos de archivos de big data son una de las diversas maneras en que GeoAnalytics Tools puede acceder a sus datos. Consulte Usar GeoAnalytics Tools en el Map Viewer para obtener una lista de posibles entradas de datos en GeoAnalytics Tools.

Los siguientes tipos de archivos se admiten como datasets en los recursos compartidos de archivos de big data:

Archivos delimitados (por ejemplo, .csv, .tsv y .txt)
Shapefiles (.shp)
Archivos de parquet (.gz.parquet)
Archivos ORC (orc.crc)

Preparar los datos para registrarlos como un archivo compartido de Big Data

Archivos compartidos y HDFS

Para preparar los datos para un archivo compartido de Big Data, debe formatear los datasets como subcarpetas en una sola carpeta principal que se registrará. En esta carpeta principal que usted registra, los nombres de las subcarpetas representan los nombres de los datasets. Si las subcarpetas contienen varias carpetas o archivos, todo el contenido de las subcarpetas de nivel superior se lee como un único dataset y debe compartir el mismo esquema. En el siguiente ejemplo se describe cómo se registra la carpeta FileShareFolder que contiene tres datasets, denominada Earthquakes, Hurricanes y GlobalOceans. Cuando registra una carpeta principal, todos los subdirectorios de la carpeta que especifica también se registran con GeoAnalytics Server. Registre siempre la carpeta principal (por ejemplo, \\machinename\FileShareFolder) que contiene una o más carpetas de dataset individuales.

Ejemplo de un recurso compartido de archivos de big data que contiene tres datasets: Terremotos, Huracanes y Océanos.

|---FileShareFolder                 < -- The top-level folder is what is registered as a big data file share
   |---Earthquakes                  < -- A dataset "Earthquakes", composed of 4 csvs with the same schema
      |---1960
         |---01_1960.csv
         |---02_1960.csv
      |---1961
         |---01_1961.csv
         |---02_1961.csv
   |---Hurricanes                   < -- The dataset "Hurricanes", composed of 3 shapefiles with the same schema
      |---atlantic_hur.shp
      |---pacific_hur.shp
      |---otherhurricanes.shp
   |---GlobalOceans                 < -- The dataset "GlobalOceans", composed of a single shapefile
      |---oceans.shp

Esta misma estructura se aplica a los archivos compartidos y a HDFS, aunque la terminología sea diferente. En un archivo compartido, hay una carpeta o directorio de nivel superior, así como datasets representados por los subdirectorios. En HDFS, la ubicación del archivo compartido se registra y contiene datasets. La tabla siguiente describe las diferencias:


	Recurso compartido de archivos	HDFS
Ubicación del recurso compartido de archivos de big data	Una carpeta o directorio	Una ruta de HDFS
Datasets	Subcarpetas de nivel superior	Datasets dentro de la ruta de HDFS

Una vez que los datos están organizados como una carpeta con subcarpetas de dataset, haga que los datos estén accesibles para GeoAnalytics Server siguiendo los pasos descritos en Hacer que sus datos sean accesibles para ArcGIS Server y registre la carpeta del dataset.

Acceder a HDFS mediante Kerberos

En ArcGIS Enterprise 10.6.1, GeoAnalytics Server puede acceder a HDFS mediante la autenticación Kerberos.

Siga estos pasos para registrar el recurso compartido de archivos HDFS mediante la autenticación Kerberos:

Inicie sesión en su sitio de GeoAnalytics Server desde el Directorio del administrador de ArcGIS Server.
El Directorio del administrador de ArcGIS Server requiere iniciar sesión como administrador. Para conectar con un sitio de GeoAnalytics Server federado, debe iniciar sesión usando un token del portal, lo que requiere las credenciales del administrador del portal, o como administrador del sitio principal de GeoAnalytics Server. Si no es administrador del portal o no tiene acceso a la información de la cuenta del administrador del sitio principal, contacte con el administrador del portal para que complete los pasos.
Vaya a datos > registerItem.
Copie el siguiente texto y péguelo en el cuadro de texto Elemento. Actualice los siguientes valores:
- <bigDataFileShareName>: sustitúyalo por el nombre que desea para el recurso compartido de archivos de big data.
- <hdfs path>: sustitúyalo por la ruta de sistema de archivos totalmente calificada al recurso compartido de archivos de big data, por ejemplo, hdfs://domainname:port/folder.
- <user@realm>: sustitúyalo por el usuario y el entorno del principal.
- <keytab location>: sustitúyalo por la ubicación del archivo keytab. El archivo keytab debe ser accesible para todos los equipos del sitio de GeoAnalytics Server, por ejemplo, //shared/keytab/hadoop.keytab.
```
{
   "path": "/bigDataFileShares/<bigDataFileShareName>",
   "type": "bigDataFileShare",
   "info": 
         {
          "connectionString": "{\"path\":\"<hdfs path>",\"accessMode\":\"Kerberos\",\"principal\":\"user@realm\",\"keytab\":\"<keytab location>\"}",
          "connectionType": "hdfs"
         }
}
  
```
Haga clic en Registrar elementos.
Una vez que el elemento se haya registrado, el recurso compartido de archivos de big data aparece como data store en ArcGIS Server Manager con un manifiesto rellenado. Si el manifiesto no está rellenado, continúe con el paso 5.
Inicie sesión en el ArcGIS Server Manager de su sitio de GeoAnalytics Server.
Puede iniciar sesión como publicador o administrador.
Vaya a Sitio > Data Stores y haga clic en el botón Volver a generar manifiesto junto al nuevo recurso compartido de archivos de big data.

Ahora tiene un recurso compartido de archivos de big data y un manifiesto para su HDFS, al que accederá mediante la autenticación Kerberos. El elemento de recurso compartido de archivos de big data del portal apunta a un servicio de catálogo de big data en GeoAnalytics Server.

Hive

En Hive, todas las tablas de una base de datos se reconocen como datasets en un archivo compartido de Big Data. En el ejemplo siguiente existe un metastore con dos databases, default y CityData. Cuando registra un recurso compartido de archivos de big data de Hive a través de ArcGIS Server con su GeoAnalytics Server, solo se puede seleccionar una base de datos. En este ejemplo, si se ha seleccionado la base de datos CityData, habrá dos datasets en el recurso compartido de archivos de big data, FireData y LandParcels.

|---HiveMetastore                 < -- The top-level folder is what is registered as a big data file share
   |---default                    < -- A database
      |---Earthquakes
      |---Hurricanes
      |---GlobalOceans
   |---CityData				               < -- A database that is registered (specified in Server Manager)
      |---FireData
      |---LandParcels

Almacenes en la nube

Hay tres pasos para registrar un recurso compartido de archivos de big data del tipo almacén en la nube.

Preparar los datos

Para preparar los datos para un recurso compartido de archivos de big data en un almacén en la nube, debe formatear los datasets como subcarpetas en una sola carpeta principal.

A continuación, se proporciona un ejemplo del modo de estructurar los datos. En este ejemplo se registra la carpeta principal, FileShareFolder, que contiene tres datasets: Earthquakes, Hurricanes y GlobalOceans. Cuando se registra una carpeta principal, todos los subdirectorios de la carpeta especificada también se registran con GeoAnalytics Server.

Ejemplo de la forma de estructurar los datos en un almacén en la nube que se usará como recurso compartido de archivos de big data. Este archivo de big data contiene tres datasets: Earthquakes, Hurricanes y GlobalOceans.

|---Cloud Store                          < -- The cloud store being registered
   |---Container or S3 Bucket Name       < -- The container (Azure) or bucket (Amazon) being registered as part of the cloud store
      |---FileShareFolder                < -- The parent folder that is registered as the 'folder' during cloud store registration
         |---Earthquakes                 < -- The dataset "Earthquakes", composed of 4 csvs with the same schema
            |---1960
               |---01_1960.csv
               |---02_1960.csv
            |---1961
               |---01_1961.csv
               |---02_1961.csv
         |---Hurricanes                  < -- The dataset "Hurricanes", composed of 3 shapefiles with the same schema
            |---atlantic_hur.shp
            |---pacific_hur.shp
            |---otherhurricanes.shp
         |---GlobalOceans                < -- The dataset "GlobalOceans", composed of 1 shapefile
            |---oceans.shp

Registrar el almacén en la nube con GeoAnalytics Server

Conecte con el sitio de GeoAnalytics Server desde ArcGIS Server Manager para registrar un almacén en la nube. Cuando registre un almacén en la nube, debe incluir un nombre de contenedor de Azure, un nombre de depósito de Amazon S3 o un nombre de cuenta de almacén de Azure Data Lake. Se recomienda especificar también una carpeta dentro del contenedor o depósito. La carpeta especificada se compone de subcarpetas y cada una representa un dataset individual. Cada dataset se compone de todo el contenido de la subcarpeta.

Registrar un almacén en la nube como recurso compartido de archivos de big data

Siga estos pasos para registrar el almacén en la nube que creó en la sección anterior como recurso compartido de archivos de big data:

Inicie sesión en su sitio de GeoAnalytics Server desde ArcGIS Server Manager.
Puede iniciar sesión como publicador o administrador.
Vaya a Sitio > Data Stores y elija Archivos compartidos de Big Data en la lista desplegable Registro.
Proporcione la siguiente información en el cuadro de diálogo Registrar archivos compartidos de Big Data:
1. Escriba un nombre para el recurso compartido de archivos de big data.
2. Elija Almacén en la nube en la lista desplegable Tipo.
3. Elija el nombre de su almacén en la nube en la lista desplegable Almacén en la nube.
4. Haga clic en Crear para registrar un almacén en la nube como recurso compartido de archivos de big data.

Ahora tiene un recurso compartido de archivos de big data y un manifiesto para su almacén en la nube. El elemento de recurso compartido de archivos de big data del portal apunta a un servicio de catálogo de big data en GeoAnalytics Server.

Registrar el recurso compartido de archivos de big data

Para registrar un recurso compartido de archivos, HDFS o un almacén en la nube de Hive como un recurso compartido de archivos de big data, establezca conexión con su sitio de GeoAnalytics Server a través de ArcGIS Server Manager. Consulte Registrar los datos con ArcGIS Server usando Manager en la ayuda de ArcGIS Server para obtener detalles sobre los pasos necesarios.

Sugerencia:

Los pasos para registrar un almacén en la nube como un recurso compartido de archivos de big data se detallaron en la sección anterior.

Cuando se registra un recurso compartido de archivos de big data, se genera un manifiesto que describe el formato de los datasets dentro de la ubicación compartida, incluidos los campos que representan la geometría y el tiempo. En el portal se crea un elemento de recurso compartido de archivos de big data que hace referencia a un servicio de catálogo de big data en el GeoAnalytics Server donde ha registrado los datos. Para obtener más información sobre los servicios de catálogo de big data, consulte la documentación de Servicio de catálogo de big data en la ayuda de la API REST de ArcGIS Services.

Modificar un recurso compartido de archivos de big data

Cuando se crea un servicio de catálogo de big data, se genera automáticamente un manifiesto que se carga al sitio de GeoAnalytics Server donde ha registrados los datos. Puede que el proceso de generación de un manifiesto no siempre calcule correctamente los campos que representan la geometría y el tiempo, por lo que es posible que deba aplicar ediciones. Para editar un manifiesto siga los pasos que se indican en Editar recursos compartidos de archivos de big data en Manager. Para obtener más información sobre el manifiesto de recursos compartidos de archivos de big data, consulte Comprender el manifiesto de recursos compartidos de archivos de big data en la ayuda de ArcGIS Server.

Ejecutar análisis en un recurso compartido de archivos de big data

Puede ejecutar un análisis en un recurso compartido de archivos de big data a través de cualquier cliente que admita GeoAnalytics Server, entre los que se incluyen los siguientes:

ArcGIS Pro
Map Viewer
API REST de ArcGIS
ArcGIS API for Python

Para ejecutar su análisis en un recurso compartido de archivos de big data a través de ArcGIS Pro o el Map Viewer, seleccione la GeoAnalytics Tools que desee usar. Para la entrada a la herramienta, acceda a la ubicación de los datos en el Portal de ArcGIS Pro o en el cuadro de diálogo Examinar capas del Map Viewer. Los datos residirán en Mi contenido si ha registrado los datos usted mismo. De lo contrario, busque en Grupos o en Todo el portal. Tenga en cuenta que una capa de recurso compartido de archivos de big data seleccionada para el análisis no se visualizará en el mapa.

Nota:

Asegúrese de que ha iniciado sesión en una cuenta de portal que tiene acceso al recurso compartido de archivos de big data registrado. Puede buscar su portal con el término bigDataFileShare* para encontrar rápidamente todos los recursos compartidos de archivos de big data a los que puede acceder.

Para ejecutar un análisis en un archivo compartido de Big Data a través de la API REST de ArcGIS, utilice como entrada la dirección URL del servicio de catálogo de Big Data. La dirección URL tendrá el formato {"url":" https://webadaptorhost.domain.com/webadaptorname/rest/DataStoreCatalogs/bigDataFileShares_filesharename/BigDataCatalogServer/dataset"}. Por ejemplo, con un equipo denominado example, un dominio denominado esri, un Web Adaptor denominado server, un archivo compartido de Big Data denominado MyData y un dataset denominado Earthquakes, la dirección URL sería: {"url":" https://example.esri.com/server/rest/DataStoreCatalogs/bigDataFileShares_MyData/BigDataCatalogServer/Earthquakes"}. Para obtener más información sobre la entrada al análisis de big data a través de REST, consulte el tema Entrada de entidad en la documentación de la API REST de ArcGIS Services.

¿Algún comentario sobre este tema?