Skip To Content

¿Qué es un archivo compartido de big data?

Acerca de archivos compartidos de Big Data

Un archivo compartido de big data es un elemento creado en su portal que hace referencia a datos de entidades (puntos, polilíneas, polígonos o datos tabulares) en una ubicación disponible para su ArcGIS GeoAnalytics Server. El elemento del archivo compartido de big data en el portal le permite examinar los datos registrados desde herramientas de ArcGIS GeoAnalytics Server. Los archivos compartidos de big data pueden hacer referencia a los siguientes orígenes de datos:

  • Archivo compartido: un directorio de datasets en un disco local o en una red compartida.
  • HDFS: un directorio Hadoop Distributed File System (HDFS) de datasets.
  • Hive: bases de datos de Metastore.
  • Almacén en la nube: un depósito de Amazon Simple Storage Service (S3) de Amazon Web Services (AWS) o contenedor BLOB de Microsoft Azure que contenga un directorio de datasets. Los almacenes en la nube están disponibles a partir de la versión ArcGIS 10.5.1.

Nota:

Un archivo compartido de big data solo está disponible para usarse si el administrador del portal ha habilitadoGeoAnalytics Server. Para obtener más información sobre cómo habilitar GeoAnalytics Server, consulte Configurar ArcGIS GeoAnalytics Server.

El uso de un archivo compartido de Big Data común a todos los orígenes de datos aporta varias ventajas. Sus datos pueden permanecer en una ubicación accesible hasta que esté preparado para realizar el análisis. Un archivo compartido de big data accede a los datos cuando se ejecuta el análisis. De este modo puede continuar agregando más datos de un dataset existente a un archivo compartido de big data sin tener que volver a registrar o publicar los datos. También puede modificar el manifiesto para eliminar, agregar o actualizar datasets en el archivo compartido de big data. Los archivos compartidos de big data son sumamente flexibles en cuanto a la definición de la hora y de la geometría y admiten el uso de varios formatos de hora en un solo dataset. Los archivos compartidos de big data también permiten dividir los datasets y seguir tratando varias particiones como un único dataset.

Nota:

Solo se puede acceder a los archivos compartidos de big data cuando se ejecuta GeoAnalytics Tools. Esto significa que solo puede examinar y agregar archivos de big data para el análisis y que no los puede visualizar en un mapa.

Los archivos compartidos de big data son una de las diversas maneras en que GeoAnalytics Tools puede acceder a sus datos. Consulte Usar GeoAnalytics Tools en el visor de mapas del portal para obtener una lista de posibles entradas de datos en GeoAnalytics Tools.

Preparar los datos para registrarlos como un archivo compartido de Big Data

Archivos compartidos y HDFS

Para preparar los datos para un archivo compartido de big data, debe formatear los datasets como subcarpetas en una sola carpeta principal que se registrará. En esta carpeta principal que registra, los nombres de las subcarpetas representan los nombres de dataset. Si las subcarpetas contienen varias carpetas o archivos, todo el contenido de las subcarpetas de nivel superior se lee como un único dataset. En el siguiente ejemplo se describe cómo se registra la carpeta FileShareFolder que contiene tres datasets, denominada Earthquakes, Hurricanes y GlobalOceans. Cuando registra una carpeta principal, todos los subdirectorios de la carpeta que especifica también se registran con GeoAnalytics Server. Registre siempre la carpeta principal (por ejemplo, \\machinename\FileShareFolder) que contiene una o más carpetas de dataset individuales.

Ejemplo de un archivo compartido de big data que contiene tres datasets: Terremotos, Huracanes y Océanos.

|---FileShareFolder                 < -- The top-level folder is what is registered as a big data file share
   |---Earthquakes                  < -- A dataset is all files and folders within the top-level subfolder
      |---1960
         |---01_1960.csv
         |---02_1960.csv
      |---1961
         |---01_1961.csv
         |---02_1961.csv
   |---Hurricanes
      |---atlantic_hur.shp
      |---pacific_hur.shp
      |---otherhurricanes.shp
   |---GlobalOceans
      |---oceans.shp

Esta misma estructura se aplica a los archivos compartidos y a HDFS, aunque la terminología sea diferente. En un archivo compartido, hay una carpeta o directorio de nivel superior, así como datasets representados por los subdirectorios. En HDFS, la ubicación del archivo compartido se registra y contiene datasets. La tabla siguiente describe las diferencias:

Recurso compartido de archivosHDFS

Ubicación del archivo compartido de big data

Una carpeta o directorio

Una ruta de HDFS

Datasets

Subcarpetas de nivel superior

Datasets dentro de la ruta de HDFS

Una vez que los datos están organizados como una carpeta con subcarpetas de dataset, haga que los datos estén accesibles para GeoAnalytics Server siguiendo los pasos descritos en Hacer que sus datos sean accesibles para ArcGIS Server y registre la carpeta del dataset.

Hive

En Hive, todas las tablas de una base de datos se reconocen como datasets en un archivo compartido de Big Data. En el ejemplo siguiente existe un metastore con dos databases, default y CityData. Cuando registra un archivo compartido de big data de Hive a través de ArcGIS Server con su GeoAnalytics Server, solo se puede seleccionar una base de datos. En este ejemplo, si se ha seleccionado la base de datos CityData, habrá dos datasets en el archivo compartido de big data, FireData y LandParcels.

|---HiveMetastore                 < -- The top-level folder is what is registered as a big data file share   |---default                    < -- A database      |---Earthquakes      |---Hurricanes      |---GlobalOceans   |---CityData				               < -- A database that is registered (specified in Server Manager)      |---FireData      |---LandParcels

Almacenes en la nube

Hay tres pasos para registrar un recurso compartido de archivos de big data del tipo almacén en la nube.

Preparar los datos

Para preparar los datos para un recurso compartido de archivos de big data en un almacén en la nube, debe formatear los datasets como subcarpetas en una sola carpeta principal.

A continuación, se proporciona un ejemplo del modo de estructurar los datos. Este ejemplo registra la carpeta principal, FileShareFolder, que contiene tres datasets: Earthquakes, Hurricanes y GlobalOceans. Cuando se registra una carpeta principal, todos los subdirectorios de la carpeta especificada también se registran con GeoAnalytics Server.

Ejemplo de la forma de estructurar los datos en un almacén en la nube que se usará como recurso compartido de archivos de big data. Este archivo de big data que contiene tres datasets: Earthquakes, Hurricanes y GlobalOceans.

|---Cloud Store                          < -- The cloud store being registered
   |---Container or S3 Bucket Name       < -- The container (Azure) or bucket (Amazon) being registered as part of the cloud store
      |---FileShareFolder                < -- The parent folder that is registered as the 'folder' during cloud store registration
         |---Earthquakes                 < -- The dataset "Earthquakes" composed of 4 csvs
            |---1960
               |---01_1960.csv
               |---02_1960.csv
            |---1961
               |---01_1961.csv
               |---02_1961.csv
         |---Hurricanes                  < -- The dataset "Hurricanes" composed of 3 shapefiles
            |---atlantic_hur.shp
            |---pacific_hur.shp
            |---otherhurricanes.shp
         |---GlobalOceans                < -- The dataset "GlobalOceans" composed of 1 shapefile
            |---oceans.shp

Registre el almacén en la nube en GeoAnalytics Server.

Conecte con el sitio de GeoAnalytics Server desde ArcGIS Server Manager para registrar un almacén en la nube. Cuando registre un almacén en la nube, debe incluir un nombre de contenedor de Azure o un nombre de bucket de AWS S3, así como una carpeta en el contenedor o el bucket. La carpeta especificada se compone de subcarpetas y cada una representa un dataset individual. Cada dataset se compone de todo el contenido de la subcarpeta.

Registrar un almacén en la nube como recurso compartido de archivos de big data

La manera de registrar el almacén en la nube como recurso compartido de archivos de big data depende del almacenamiento en la nube que se use.

Siga estos pasos para registrar el almacén en la nube de AWS S3 que creó en la sección anterior como recurso compartido de archivos de big data:

  1. Inicie sesión en su sitio de GeoAnalytics Server desde ArcGIS Server Manager.

    Puede iniciar sesión como publicador o administrador.

    Nota:

    En GeoAnalytics Server 10.5.1, no puede registrar un almacén en la nube de AWS con las credenciales de IAM.

  2. Vaya a Sitio > Data Stores y elija Archivos compartidos de Big Data en la lista desplegable Registro.
  3. Proporcione la siguiente información en el cuadro de diálogo Registrar archivos compartidos de Big Data:
    1. Escriba un nombre para el recurso compartido de archivos de big data.
    2. Elija Almacén en la nube en la lista desplegable Tipo.
    3. Elija el nombre de su almacén en la nube de AWS en la lista desplegable Almacén en la nube.
    4. Haga clic en Crear para registrar un almacén en la nube como recurso compartido de archivos de big data.

Ahora tiene un recurso compartido de archivos de big data y un manifiesto para su almacén en la nube de AWS. El elemento de recurso compartido de archivos de big data del portal apunta a un servicio de catálogo de big data en GeoAnalytics Server.

Siga estos pasos para registrar el almacén en la nube de Azure que creó en la última sección como recurso compartido de archivos de big data:

  1. Inicie sesión en su sitio de GeoAnalytics Server desde el Directorio del administrador de ArcGIS Server.

    El Directorio del administrador de ArcGIS Server requiere iniciar sesión como administrador. Para conectar con un sitio de GeoAnalytics Server federado, debe iniciar sesión usando un token del portal, lo que requiere las credenciales del administrador del portal, o como administrador del sitio principal de GeoAnalytics Server. Si no es administrador del portal o no tiene acceso a la información de la cuenta del administrador del sitio principal, contacte con el administrador del portal para que complete los pasos.

  2. Vaya a datos > registerItem.
  3. Copie el siguiente texto y péguelo en el cuadro de texto Elemento. Actualice el valor <bigDataFileShareName> con el nombre que desee para el recurso compartido de archivos de big data y el valor <cloudStoreName> con el nombre especificado para el almacén en la nube de Azure cuando lo registró con el sitio de GeoAnalytics Server.

    {
       "path": "/bigDataFileShares/<bigDataFileShareName>",
       "type": "bigDataFileShare",
       "info": {
       "connectionString": "{\"path\" : \"/cloudStores/<cloudStoreName>\"}",
       "connectionType": "dataStore"
       }
       }
    

  4. Haga clic en Registrar elemento.

    Una vez que el elemento se haya registrado, el recurso compartido de archivos de big data aparecerá como un data store en ArcGIS Server Manager.

  5. Inicie sesión en su sitio de GeoAnalytics ServerSitio de GeoAnalytics Server desde ArcGIS Server Manager.

    Puede iniciar sesión como publicador o administrador.

  6. Vaya a Sitio > Data Stores y haga clic en el botón Volver a generar manifiesto junto al nuevo recurso compartido de archivos de big data.

Ahora tiene un recurso compartido de archivos de big data y un manifiesto para su almacén en la nube de Azure. El elemento de recurso compartido de archivos de big data del portal apunta a un servicio de catálogo de big data en GeoAnalytics Server.

Registrar el archivo compartido de big data

Para registrar un recurso compartido de archivos, HDFS o un almacén en la nube de Hive como un recurso compartido de archivos de big data, establezca conexión con su sitio de GeoAnalytics Server a través de ArcGIS Server Manager. Consulte Registrar los datos con ArcGIS Server usando Manager en la ayuda de ArcGIS Server para obtener detalles sobre los pasos necesarios.

Sugerencia:

Los pasos para registrar un almacén en la nube como un recurso compartido de archivos de big data se detallaron en la sección anterior.

Cuando se registra un archivo compartido de big data, se genera un manifiesto que describe el formato de los datasets dentro de la ubicación compartida, incluidos los campos que representan la geometría y el tiempo. En el portal se crea un elemento de archivo compartido de big data que hace referencia a un servicio de catálogo de big data en el GeoAnalytics Server donde ha registrado los datos. Para obtener más información sobre los servicios de catálogo de big data, consulte la documentación de Servicio de catálogos de big data en la ayuda de la API REST de ArcGIS Services.

Modificar un archivo compartido de big data

Cuando se crea un archivo compartido de big data, se genera automáticamente un manifiesto que se carga al sitio de GeoAnalytics Server donde ha registrados los datos. Puede que el proceso de generación de un manifiesto no siempre calcule correctamente los campos que representan la geometría y el tiempo, por lo que es posible que deba aplicar ediciones. Para editar un manifiesto siga los pasos que se indican en Editar archivos compartidos de big data en Manager. Para obtener más información sobre el manifiesto de archivo compartido de big data, consulte Comprender el manifiesto de archivos compartidos de big data en la ayuda de ArcGIS Server.

Ejecutar análisis en un archivo compartido de big data

Puede ejecutar un análisis en un recurso compartido de archivos de big data a través de cualquier cliente que admita GeoAnalytics Server, entre los que se incluyen los siguientes:

  • ArcGIS Pro
  • El visor de mapas de Portal for ArcGIS
  • API REST de ArcGIS

Para ejecutar su análisis en un archivo compartido de Big Data a través del visor de mapas de ArcGIS Pro o Portal for ArcGIS, seleccione la GeoAnalytics Tools que desee usar. Para la entrada a la herramienta, acceda a la ubicación de los datos en el Portal de ArcGIS Pro o en el cuadro de diálogo Examinar capas del visor de mapas de Portal for ArcGIS. Los datos residirán en Mi contenido si ha registrado los datos usted mismo. De lo contrario, busque en Grupos o en Todo el portal. Tenga en cuenta que una capa de archivo compartido de big data seleccionada para el análisis no se visualizará en el mapa.

Nota:

Asegúrese de que ha iniciado sesión en una cuenta de portal que tiene acceso al archivo compartido de big data registrado. Puede buscar su portal con el término bigDataFileShare* para encontrar rápidamente todos los archivos compartidos de big data a los que puede acceder.

Para ejecutar un análisis en un archivo compartido de big data a través de la API REST de ArcGIS, utilice como entrada la dirección URL del servicio de catálogo de big data. La dirección URL tendrá el formato {"url":" https://webadaptorhost.domain.com/webadaptorname/rest/DataStoreCatalogs/bigDataFileShares_filesharename/BigDataCatalogServer/dataset"}. Por ejemplo, con un equipo denominado example, un dominio denominado esri, un Web Adaptor denominado server, un archivo compartido de Big Data denominado MyData y un dataset denominado Earthquakes, la dirección URL sería: {"url":" https://example.esri.com/server/rest/DataStoreCatalogs/bigDataFileShares_MyData/BigDataCatalogServer/Earthquakes"}. Para obtener más información sobre la entrada al análisis de big data a través de REST, consulte el tema Entrada de entidad en la documentación de la API REST de ArcGIS Services.