Skip To Content

Introduzione alle condivisioni file Big Data

Informazioni sulle condivisioni file Big Data

Una condivisione file Big Data è un elemento creato nel portale che fa riferimento ai dati della feature (dati puntuali, polilineari, poligonali o tabulari) in una posizione cui ArcGIS GeoAnalytics Server può accedere. L'elemento della condivisione file Big Data nel portale consente di individuare dati registrati da strumenti ArcGIS GeoAnalytics Server. Le condivisioni file Big Data possono fare riferimento alle origini dati riportate di seguito.

  • Condivisione file: una directory di dataset su un disco locale o condivisione di rete.
  • HDFS: una directory HDFS (Hadoop Distributed File System) Apache di dataset.
  • Hive: database di metastore Hive Apache.
  • Archivio cloud: un bucket Simple Storage Service (S3) Amazon, un contenitore Microsoft Azure Blob o Azure Data Lake Store Microsoft contenente una directory di dataset.
    Nota:

    Azure Data Lake Store Microsoft è supportato a partire da ArcGIS Enterprise 10.6.1.

Nota:

Una condivisione file Big Data è disponibile per l'uso solo se l'amministratore del portale ha abilitato GeoAnalytics Server. Per ulteriori informazioni sull'abilitazione di GeoAnalytics Server, vedere Configurare ArcGIS GeoAnalytics Server.

L'utilizzo di una condivisione file Big Data comune a tutte le origini dati è caratterizzato da numerosi vantaggi. È possibile conservare i dati nella posizione accessibile finché non sono pronti per essere sottoposti ad analisi. Una condivisione file Big Data consente di accedere ai dati durante l’esecuzione dell’analisi. Pertanto, sarà possibile continuare ad aggiungere i dati in un dataset esistente nella condivisione file Big Data esistente senza doverli registrare di nuovo o pubblicare. È anche possibile modificare il file Manifest per rimuovere, aggiungere o aggiornare dataset nella condivisione file Big Data. Le condivisioni file Big Data sono caratterizzate da una maggiore flessibilità a livello di definizione del tempo e della geometria, consentendo in questo modo di utilizzare più formati ora in un unico dataset. Le condivisioni file Big Data consentono inoltre di eseguire la partizione dei dataset e continuare a considerare le varie partizioni come un unico dataset.

Nota:

L'accesso alle condivisioni file Big Data è possibile solo quando si esegue Strumenti GeoAnalytics. Ciò significa che è solo possibile sfogliare e aggiungere file Big Data all'analisi. Non sarà pertanto possibile visualizzare i dati in una mappa.

Le condivisioni file Big Data sono uno dei diversi modi di accesso ai dati da Strumenti GeoAnalytics. Consultare Utilizzare gli strumenti Strumenti GeoAnalytics in Map Viewer per un elenco di possibili input di dati di Strumenti GeoAnalytics.

I seguenti tipi di dati sono supportati come dataset in condivisioni file Big Data:

  • File delimitati (come .csv, .tsv e .txt)
  • Shapefile (.shp)
  • File parquet (.gz.parquet)
  • File ORC (orc.crc)

Preparare i dati per la registrazione come condivisione file Big Data

Condivisioni file e HDFS

Per preparare i dati per una condivisione file Big Data, è necessario formattare i dataset come sottocartelle di un'unica cartella padre che verrà registrata. In questa cartella padre registrata, i nomi delle sottocartelle rappresentano i nomi dei dataset. Se le sottocartelle contengono più cartelle e/o file, tutti i contenuti delle sottocartelle di primo livello vengono letti come un unico dataset e devono condividere lo stesso schema. Di seguito è illustrato un esempio di come registrare la cartella FileShareFolder contenente tre dataset denominati Earthquakes, Hurricanes e GlobalOceans. Quando si registra una cartella padre, in GeoAnalytics Server vengono registrate anche tutte le sottodirectory della cartella specificata. Registrare sempre la cartella padre (ad esempio, \\machinename\FileShareFolder, contenente una o più cartelle di dataset.

Esempio di una condivisione file Big Data contenente tre dataset: Earthquakes, Hurricanes e GlobalOceans.

|---FileShareFolder                 < -- The top-level folder is what is registered as a big data file share
   |---Earthquakes                  < -- A dataset "Earthquakes", composed of 4 csvs with the same schema
      |---1960
         |---01_1960.csv
         |---02_1960.csv
      |---1961
         |---01_1961.csv
         |---02_1961.csv
   |---Hurricanes                   < -- The dataset "Hurricanes", composed of 3 shapefiles with the same schema
      |---atlantic_hur.shp
      |---pacific_hur.shp
      |---otherhurricanes.shp
   |---GlobalOceans                 < -- The dataset "GlobalOceans", composed of a single shapefile
      |---oceans.shp

Questa stessa struttura viene applicata alle condivisioni file e a HDFS, anche se la terminologia è diversa. In una condivisione file è presente una cartella o una directory di primo livello e i dataset sono rappresentati dalle sottodirectory. In HDFS, la posizione della condivisione file viene registrata e include i dataset. Nella tabella seguente vengono evidenziate le differenze:

Condivisione fileHDFS

Posizione della condivisione file Big Data

Una cartella o directory

Un percorso HDFS

Dataset

Sottocartelle di primo livello

Dataset all'interno del percorso HDFS

Dopo aver organizzato i dati come una cartella contenente sottocartelle di dataset, rendere i dati accessibili a GeoAnalytics Server eseguendo la procedura descritta in Rendere i dati accessibili ad ArcGIS Server e quindi registrando la cartella di dataset.

Accesso a HDFS usando Kerberos

In ArcGIS Enterprise 10.6.1 GeoAnalytics Server può accedere a HDFS usando l'autenticazione Kerberos.

Seguire questa procedura per registrare la condivisione file HDFS usando l'autenticazione Kerberos:

  1. Accedere al sito di GeoAnalytics Server da ArcGIS Server Administrator Directory.

    ArcGIS Server Administrator Directory richiede l'accesso come amministratore. Per connettersi al sito di GeoAnalytics Server federato, è necessario effettuare l'accesso utilizzando un token portale, che richiede le credenziali dell'amministratore del portale, o come l'amministratore principale del sito di GeoAnalytics Server. Se l'utente non è un amministratore del portale o se non si dispone dell'accesso alle informazioni sull'account dell'amministratore principale del sito, contattare l'amministratore del portale per completare questi passi per l'utente.

  2. Passare a dati > registerItem.
  3. Copiare il seguente testo e incollarlo nella casella di testo Elemento. Aggiornare i seguenti valori:

    • <bigDataFileShareName>: sostituire con il nome desiderato per la condivisione file Big Data.
    • <hdfs path>: sostituire con il percorso completo del file system alla condivisione file Big Data, ad esempio hdfs://domainname:port/folder.
    • <user@realm>: sostituire con l'utente e l'area del principale.
    • <keytab location>: sostituire con la posizione del file del keytab. Il file del keytab deve essere accessibile a tutti computer nel sito GeoAnalytics Server, ad esempio //shared/keytab/hadoop.keytab.

    {
       "path": "/bigDataFileShares/<bigDataFileShareName>",
       "type": "bigDataFileShare",
       "info": 
             {
              "connectionString": "{\"path\":\"<hdfs path>",\"accessMode\":\"Kerberos\",\"principal\":\"user@realm\",\"keytab\":\"<keytab location>\"}",
              "connectionType": "hdfs"
             }
    }
      
    

  4. Fare clic su Registra elemento.

    Dopo che l'elemento è stato registrato, la condivisione file Big Data viene visualizzata come un Data Store in ArcGIS Server Manager con un manifesto popolato. Se il manifesto non è popolato, proseguire con il passaggio 5.

  5. Accedere al sito di GeoAnalytics Server da ArcGIS Server Manager.

    È possibile effettuare l'accesso come un editore o amministratore.

  6. Passare a Sito > Data Store e fare clic sul pulsante Rigenera manifesto accanto alla nuova condivisione file Big Data.

È ora disponibile una condivisione file Big Data e un manifesto per HDFS, al quale si accede mediante autenticazione Kerberos. L'elemento della condivisione file Big Data nel portale fa riferimento a un servizio catalogo Big Data nell'istanza di GeoAnalytics Server.

Nascondi

In Hive, tutte le tabelle di un database vengono riconosciute come dataset di una condivisione file Big Data. Nell'esempio seguente è presente un metastore con due database, default e CityData. Durante la registrazione di una condivisione file Big Data Hive tramite ArcGIS Server con GeoAnalytics Server, è possibile selezionare solo un database. In questo esempio, se viene selezionato il database CityData, saranno presenti due dataset nella condivisione file Big Data, ovvero FireData e LandParcels.

|---HiveMetastore                 < -- The top-level folder is what is registered as a big data file share
   |---default                    < -- A database
      |---Earthquakes
      |---Hurricanes
      |---GlobalOceans
   |---CityData				               < -- A database that is registered (specified in Server Manager)
      |---FireData
      |---LandParcels

Archivi cloud

Per registrare una condivisione file Big Data di tipo archivio cloud esistono tre passi.

Preparare i dati

Per preparare i dati per una condivisione file Big Data in un archivio cloud, è necessario formattare i dataset come sottocartelle di un'unica cartella padre.

Di seguito è riportato un esempio di come strutturare i dati. Questo esempio registra la cartella padre, FileShareFolder, che contiene tre dataset Earthquakes, Hurricanes e GlobalOceans. Quando si registra una cartella padre, anche tutte le sottodirectory della cartella specificata vengono registrate con GeoAnalytics Server.

Esempio di come strutturare i dati in un archivio cloud che verrà utilizzato come una condivisione file Big Data. Questo file Big Data contiene tre dataset: Earthquakes, Hurricanes e GlobalOceans.

|---Cloud Store                          < -- The cloud store being registered
   |---Container or S3 Bucket Name       < -- The container (Azure) or bucket (Amazon) being registered as part of the cloud store
      |---FileShareFolder                < -- The parent folder that is registered as the 'folder' during cloud store registration
         |---Earthquakes                 < -- The dataset "Earthquakes", composed of 4 csvs with the same schema
            |---1960
               |---01_1960.csv
               |---02_1960.csv
            |---1961
               |---01_1961.csv
               |---02_1961.csv
         |---Hurricanes                  < -- The dataset "Hurricanes", composed of 3 shapefiles with the same schema
            |---atlantic_hur.shp
            |---pacific_hur.shp
            |---otherhurricanes.shp
         |---GlobalOceans                < -- The dataset "GlobalOceans", composed of 1 shapefile
            |---oceans.shp

Registrare l’archivio cloud con GeoAnalytics Server

Connettersi al sito di GeoAnalytics Server da ArcGIS Server Manager per registrare un archivio cloud. Quando si registra un archivio cloud, è necessario includere un nome contenitore Azure, un nome bucket Amazon S3 o un nome account Azure Data Lake Store. È consigliato specificare anche una cartella nel contenitore o bucket. La cartella specificata è costituita da sottocartelle e ciascuna rappresenta un singolo dataset. Ogni dataset è costituito da tutti i contenuti della sottocartella.

Registrare l'archivio cloud come una condivisione file Big Data

Seguire questi passaggi per registrare l'archivio cloud creato nella sezione precedente come una condivisione file Big Data:

  1. Accedere al sito di GeoAnalytics Server da ArcGIS Server Manager.

    È possibile effettuare l'accesso come un editore o amministratore.

  2. Passare a Sito > Data Store e scegliere Condivisione file Big Data dall'elenco a discesa Registra.
  3. Fornire le seguenti informazioni nella finestra di dialogo Registra condivisione file Big Data:
    1. Digitare un nome per la condivisione file Big Data.
    2. Scegliere Archivio cloud dall'elenco a discesa Tipo.
    3. Scegliere il nome dell’archivio cloud dall’elenco a discesa Archivio cloud.
    4. Fare clic su Crea per registrare l'archivio cloud come una condivisione file Big Data.

È ora disponibile una condivisione file Big Data e un Manifest per l’archivio cloud. L'elemento della condivisione file Big Data nel portale fa riferimento a un servizio catalogo Big Data nell'istanza di GeoAnalytics Server.

Registrare la condivisione file Big Data

Per registrare una condivisione file, HDFS o archivio cloud Hive come una condivisione file Big Data, connettersi al sito di GeoAnalytics Server mediante ArcGIS Server Manager. Per ulteriori informazioni sulle procedure necessarie, consultare Registrare i dati in ArcGIS Server tramite Manager nella Guida di ArcGIS Server.

Suggerimento:

I passi per registrare un archivio dati come una condivisione file Big Data sono stati descritti nella sezione precedente.

Quando una condivisione file Big Data viene registrata, viene generato un Manifest in cui è riportato il formato dei dataset presenti nella posizione della condivisione, compresi i campi che rappresentano la geometria e il tempo. Nel portale viene creata una condivisione file Big Data che fa riferimento al servizio catalogo Big Data nell'istanza di GeoAnalytics Server in cui i dati sono stati registrati. Per ulteriori informazioni sui servizi catalogo Big Data, consultare la documentazione Servizio catalogo Big Data nella Guida dell'API REST dei servizi ArcGIS.

Modificare una condivisione file Big Data

Quando viene creato un servizio catalogo Big Data, un Manifest viene automaticamente generato e caricato nel sito di GeoAnalytics Server in cui i dati sono stati registrati. È possibile che il processo di generazione di un Manifest non stimi sempre correttamente i campi che rappresentano la geometria e il tempo e potrebbe essere necessario apportare alcune modifiche. Per modificare un Manifest, seguire la procedura in Modificare i manifesti delle condivisioni file Big Data in Manager. Per ulteriori informazioni sul Manifest di condivisione file Big Data, consultare Informazioni sul Manifest di condivisione file Big Data nella Guida di ArcGIS Server.

Eseguire analisi su una condivisione file Big Data

È possibile eseguire analisi su un dataset in una condivisione file Big Data mediante qualsiasi client che supporta GeoAnalytics Server, inclusi i seguenti:

  • ArcGIS Pro
  • Map Viewer
  • API REST ArcGIS
  • ArcGIS API for Python

Per eseguire l’analisi su una condivisione file Big Data ArcGIS Pro o Map Viewer, selezionare Strumenti GeoAnalytics da utilizzare. Per fornire l’input allo strumento, passare alla posizione in cui si trovano i dati nella sezione Portale in ArcGIS Pro oppure nella finestra di dialogo Sfoglia layer in Map Viewer. Se sono stati registrati, i dati saranno disponibili in I Miei Contenuti. In caso contrario, passare a Gruppi o Tutto il portale. Il layer della condivisione file Big Data selezionato per l'analisi non verrà visualizzato nella mappa.

Nota:

Accertarsi di avere effettuato l'accesso ad un account del portale che dispone dell'accesso alla condivisione file Big Data registrata. Nel portale è possibile cercare il termine bigDataFileShare* per trovare tutte le condivisioni file Big Data per le quali si dispone dell'accesso.

Per eseguire analisi su una condivisione file Big Data tramite l'API REST ArcGIS, come input utilizzare l'URL del servizio catalogo Big Data. Il formato sarà {"url":" https://webadaptorhost.domain.com/webadaptorname/rest/DataStoreCatalogs/bigDataFileShares_filesharename/BigDataCatalogServer/dataset"}. Ad esempio, con un computer denominato example, un dominio denominato esri, un Web Adaptor denominato server, una condivisione file Big Data denominata MyData e un dataset denominato Earthquakes, l'URL sarà: {"url":" https://example.esri.com/server/rest/DataStoreCatalogs/bigDataFileShares_MyData/BigDataCatalogServer/Earthquakes"}. Per ulteriori informazioni sugli input per l'analisi Big Data tramite REST, consultare l'argomento Input di feature nella documentazione dell'API REST dei servizi ArcGIS.