Introduzione alle condivisioni file Big Data—ArcGIS GeoAnalytics Server

Informazioni sulle condivisioni file Big Data

Una condivisione file Big Data è un elemento creato nel portale che fa riferimento a una posizione disponibile in ArcGIS GeoAnalytics Server. La posizione della condivisione file Big Data può essere utilizzata come input e output per i dati feature (dati puntuali, polilineari, poligonali e tabulati) degli strumenti GeoAnalytics. Quando si crea una condivisione file Big Data, viene creato un elemento nel portale. L’elemento fa riferimento a un servizio catalogo Big Data, che definisce i dataset nella condivisione file Big Data e il loro schema, tra cui informazioni su geometria e tempo, nonché i formati di output, chiamati modelli, che sono stati registrati. Quando si utilizza una condivisione file Big Data per fornire l’input a uno strumento diArcGIS GeoAnalytics Server è possibile cercare l’elemento per eseguire analisi su un dataset.

L'utilizzo di una condivisione file Big Data è caratterizzato da numerosi vantaggi. È possibile conservare i dati nella posizione accessibile finché non sono pronti per essere sottoposti ad analisi. Una condivisione file Big Data consente di accedere ai dati durante l’esecuzione dell’analisi. Pertanto, sarà possibile continuare ad aggiungere i dati in un dataset esistente nella condivisione file Big Data esistente senza doverli registrare di nuovo o pubblicare. È anche possibile modificare il file Manifest per rimuovere, aggiungere o aggiornare dataset nella condivisione file Big Data. Le condivisioni file Big Data sono caratterizzate da una maggiore flessibilità a livello di definizione del tempo e della geometria, consentendo in questo modo di utilizzare più formati ora in un unico dataset. Le condivisioni file Big Data consentono inoltre di eseguire la partizione dei dataset e continuare a considerare le varie partizioni come un unico dataset. Utilizzare condivisioni file Big Data per dati di output permette di archiviare i risultati in formati che si possono utilizzare per altri flussi di lavoro, come un file parquet per un ulteriore analisi o archiviazione.

Nota:

L'accesso alle condivisioni file Big Data è possibile solo quando si esegue GeoAnalytics Tools. Ciò significa che è solo possibile sfogliare e aggiungere file Big Data all'analisi. Non sarà pertanto possibile visualizzare i dati in una mappa.

Le condivisioni file Big Data possono fare riferimento alle origini dei dati di input riportate di seguito:

Condivisione file: una directory di dataset su un disco locale o condivisione di rete.
Apache Hadoop Distributed File System (HDFS)— UnaHDFS directory di dataset.
Apache Hive—Hive database di metastore.
Archivio cloud — Un contenitoreAmazon Simple Storage Service (S3), Microsoft Azurecontenitore Blob, or archivioMicrosoft Azure Data Lake contenente una directory di dataset.

Quando si scrivono risultati in una condivisione file Big Data, è possibile utilizzare il seguenteGeoAnalytics Tools di output:

Condivisione file
HDFS
Archivio cloud

I seguenti tipi di dati sono supportati come dataset in condivisioni file Big Data di input e output:

File delimitati (come .csv, .tsv, e .txt)
Shapefile (.shp)
File parquet (.gz.parquet)
File ORC (orc.crc)

Nota:

Una condivisione file Big Data è disponibile per l'uso solo se l'amministratore del portale ha abilitato GeoAnalytics Server. Per maggiori informazioni sull'abilitazione di GeoAnalytics Server, consultareConfigurareArcGIS GeoAnalytics Server.

Le condivisioni file Big Data sono uno dei diversi metodi di accesso ai dati daGeoAnalytics Tools e non sono un requisito per GeoAnalytics Tools. Consultare Uso di GeoAnalytics Tools in Map Viewer per un elenco di possibili input e output di dati di GeoAnalytics Tools.

È possibile registrare tutte le condivisione file Big Data necessarie. Ogni condivisione file Big Data può avere tutti i dataset necessari.

La tabella sottostante delinea alcuni importanti elementi riguardanti le condivisioni file Big Data


Periodo	Descrizione
Condivisione file Big Data	Una posizione registrata conGeoAnalytics Server da usare come input, output, o input e output del dataset per i GeoAnalytics Tools.
Servizio catalogo Big Data	Un servizio che delinea i dataset e schemi di input e nomi dei modelli di output della condivisione file Big Data. Questo è creato quando una condivisione file Big Data viene registrata e il manifesto viene creato. Per ulteriori informazioni sui servizi catalogo Big Data, consultare la documentazione Servizio catalogo Big Data nella Guida dell'API REST dei servizi ArcGIS.
Elemento della condivisione file Big Data	Un elemento nel portale che fa riferimento al servizio catalogo Big Data. È possibile controllare chi utilizza la condivisione file Big Data come input in GeoAnalytics condividendo questo elemento nel portale.
Manifesto	Un file JSON che delinea i dataset disponibili e schemi per input nella condivisione file Big Data. Il manifesto viene generato automaticamente quando si registra una condivisione file Big Data e può essere modificato editando o utilizzando un file dei suggerimenti. Una condivisione file Big Data singola ha un file Manifest.
Modelli di output	Uno o più modelli che delineano tipo di file e formattazione opzionale quando si scrivono risultati su una condivisione file Big Data. Ad esempio, un modello potrebbe specificare che i risultati sono scritti su un shapefile. Una condivisione file Big Data può avere nessuno, uno o più modelli di output.
Tipo di condivisione file Big Data	Il tipo di posizioni che si stanno registrando. Ad esempio, è possibile avere una condivisione file Big Data o un tipo di HDFS.
Formato dataset di condivisione file Big Data	Il formato dei dati che si leggono o scrivono. Ad esempio, il tipo di file può essere shapefile.
File dei suggerimenti	Un file opzionale che può essere utilizzato per assistere nella generazione di un manifesto per file delimitati utilizzati come input.

Preparare i dati per la registrazione come condivisione file Big Data

Per utilizzare i dataset come input in una condivisione file Big Data, assicurarsi che i dati siano formattati correttamente. Per la formattazione basata sul tipo di condivisione file Big Data, vedere di seguito.

Condivisioni file e HDFS

Per preparare i dati per una condivisione file Big Data, è necessario formattare i dataset come sottocartelle di un'unica cartella padre che verrà registrata. In questa cartella padre registrata, i nomi delle sottocartelle rappresentano i nomi dei dataset. Se le sottocartelle contengono più cartelle e/o file, tutti i contenuti delle sottocartelle di primo livello vengono letti come un unico dataset e devono condividere lo stesso schema. Di seguito è illustrato un esempio di come registrare la cartellaFileShareFolder contenente tre dataset denominati Earthquakes, Hurricanes, e GlobalOceans. Quando si registra una cartella padre, nel server vengono registrate anche tutte le sottodirectory della cartella specificata con il GeoAnalytics Server. Registrare sempre la cartella padre (ad esempio, \\machinename\FileShareFolder, contenente una o più cartelle di dataset.

Esempio di una condivisione file Big Data contenente tre dataset: Earthquakes, Hurricanes e GlobalOceans.

|---FileShareFolder                 < -- The top-level folder is what is registered as a big data file share
   |---Earthquakes                  < -- A dataset "Earthquakes", composed of 4 csvs with the same schema
      |---1960
         |---01_1960.csv
         |---02_1960.csv
      |---1961
         |---01_1961.csv
         |---02_1961.csv
   |---Hurricanes                   < -- The dataset "Hurricanes", composed of 3 shapefiles with the same schema
      |---atlantic_hur.shp
      |---pacific_hur.shp
      |---otherhurricanes.shp
   |---GlobalOceans                 < -- The dataset "GlobalOceans", composed of a single shapefile
      |---oceans.shp

Questa stessa struttura viene applicata alle condivisioni file e HDFS, anche se la terminologia è diversa. In una condivisione file è presente una cartella o una directory di primo livello e i dataset sono rappresentati dalle sottodirectory. In HDFS, la posizione della condivisione file viene registrata e include i dataset. Nella tabella seguente vengono evidenziate le differenze:


	Condivisione file	HDFS
Posizione della condivisione file Big Data	Una cartella o directory	Un percorso HDFS
Dataset	Sottocartelle di primo livello	Dataset all'interno del percorso HDFS

Dopo aver organizzato i dati come una cartella contenente sottocartelle di dataset, rendere i dati accessibili a GeoAnalytics Servereseguendo la procedura descritta in Rendere i dati accessibili daArcGIS Server e registrando la cartella di dataset.

Accedi aHDFS utilizzando Kerberos

GeoAnalytics Server può accedere aHDFS utilizzando l'autenticazione Kerberos.

Nota:

GeoAnalytics Server supporta la protezione RCP impostata per l' autenticazione (hadoop.rpc.protection=authentication). GeoAnalytics Server non supporta attualmente le modalità integrità (integrity) o privacy (privacy).

Seguire questa procedura per registrare la condivisione fileHDFS usando l'autenticazione Kerberos:

In Windows, copiare il file krb.iniC:/windows/krb.ini su tutti i computer del sito GeoAnalytics Server. In Linux, copiare il filekrb.conf/etc/krb.conf su tutti i computer del sito GeoAnalytics Server.
Effettuare l'accesso al sitoGeoAnalytics Server daArcGIS Server Administrator Directory.
ArcGIS Server Administrator Directory richiede l'accesso come amministratore. Per connettersi al sito di federato GeoAnalytics Server, è necessario effettuare l'accesso utilizzando un token portale, che richiede le credenziali dell'amministratore del portale, o come l'amministratore principale del sito di GeoAnalytics Server. Se l'utente non è un amministratore del portale o se non si dispone dell'accesso alle informazioni sull'account dell'amministratore principale del sito, contattare l'amministratore del portale per completare questi passi per l'utente.
Passare a dati > registerItem.
Copiare il seguente testo e incollarlo nella casella di testo Elemento. Aggiornare i seguenti valori:
- <bigDataFileShareName>: sostituire con il nome desiderato per la condivisione file Big Data.
- <hdfs path>: sostituire con il percorso completo del file system alla condivisione file Big Data, ad esempio, hdfs://domainname:port/folder.
- <user@realm>: sostituire con l'utente e l'area del principale.
- <keytab location>: sostituire con la posizione del file del keytab. Il file del keytab deve essere accessibile a tutti computer nel sitoGeoAnalytics Server, ad esempio //shared/keytab/hadoop.keytab.
```
{
   "path": "/bigDataFileShares/<bigDataFileShareName>",
   "type": "bigDataFileShare",
   "info": 
         {
          "connectionString": "{\"path\":\"<hdfs path>",\"accessMode\":\"Kerberos\",\"principal\":\"user@realm\",\"keytab\":\"<keytab location>\"}",
          "connectionType": "hdfs"
         }
}
  
```
Fare clic su Registra elemento.
Dopo che l'elemento è stato registrato, la condivisione file Big Data viene visualizzata come un Data Store inArcGIS Server Manager con un manifesto popolato. Se il manifesto non è popolato, proseguire con il passaggio 5.
Accedere al sito daGeoAnalytics ServerArcGIS Server Manager.
È possibile effettuare l'accesso come un editore o amministratore.
Passare a Sito > Data Store e fare clic sul pulsante Rigenera manifesto accanto alla nuova condivisione file Big Data.

È ora disponibile una condivisione file Big Data e un manifesto per HDFS, al quale si accede mediante autenticazione Kerberos. L'elemento della condivisione file Big Data nel portale fa riferimento a un servizio catalogo Big Data nell'istanza di GeoAnalytics Server.

Hive

Nota:

GeoAnalytics Server usa Spark 3.0.1. Hive deve essere la versione 2.3.7 o 3.0.0–3.1.2.

Se non ci si sbriga e si registra una condivisione di grandi dati con Hive non corretta, la registrazione della condivisione di grandi dati non andrà a buon fine. Se questo si verifica, la casella degli strumenti GeoAnalyticsManagement in Directory Administrator ArcGIS Server, > servii > Sistema >GeoAnalyticsManagement> stop. Ripetere queste operazioni per iniziare.

In Hive, tutte le tabelle di un database vengono riconosciute come dataset di una condivisione file Big Data. Nell'esempio seguente è presente un metastore con due database,default e CityData. Durante la registrazione di una condivisione file Big DataHive tramiteArcGIS Server con GeoAnalytics Server, è possibile selezionare solo un database. In questo esempio, se viene selezionato il database CityData, saranno presenti due dataset nella condivisione file Big Data, ovveroFireData e LandParcels.

|---HiveMetastore                 < -- The top-level folder is what is registered as a big data file share
   |---default                    < -- A database
      |---Earthquakes
      |---Hurricanes
      |---GlobalOceans
   |---CityData				               < -- A database that is registered (specified in Server Manager)
      |---FireData
      |---LandParcels

Archivi cloud

Per registrare una condivisione file Big Data di tipo archivio cloud esistono tre passi.

Preparare i dati

Per preparare i dati per una condivisione file Big Data in un archivio cloud, è necessario formattare i dataset come sottocartelle di un'unica cartella padre.

Di seguito è riportato un esempio di come strutturare i dati. Questo esempio registra la cartella padre, FileShareFolder, che contiene tre dataset: Earthquakes, Hurricanes, e GlobalOceans. Quando si registra una cartella padre, nel server vengono registrate anche tutte le sottodirectory della cartella specificata con il GeoAnalytics Server.

Esempio di come strutturare i dati in un archivio cloud che verrà utilizzato come una condivisione file Big Data. Questo file Big Data contiene tre dataset: Earthquakes, Hurricanes e GlobalOceans.

|---Cloud Store                          < -- The cloud store being registered
   |---Container or S3 Bucket Name       < -- The container (Azure) or bucket (Amazon) being registered as part of the cloud store
      |---FileShareFolder                < -- The parent folder that is registered as the 'folder' during cloud store registration
         |---Earthquakes                 < -- The dataset "Earthquakes", composed of 4 csvs with the same schema
            |---1960
               |---01_1960.csv
               |---02_1960.csv
            |---1961
               |---01_1961.csv
               |---02_1961.csv
         |---Hurricanes                  < -- The dataset "Hurricanes", composed of 3 shapefiles with the same schema
            |---atlantic_hur.shp
            |---pacific_hur.shp
            |---otherhurricanes.shp
         |---GlobalOceans                < -- The dataset "GlobalOceans", composed of 1 shapefile
            |---oceans.shp

Registrare l’archivio cloud con GeoAnalytics Server

Connettersi al sito diGeoAnalytics Server daArcGIS Server Manager per registrare un archivio cloud . Quando si registra un archivio cloud, è necessario includere un nome contenitore Azure, un nome bucket Amazon S3, o un nome account Store Azure Data Lake. È consigliato specificare anche una cartella nel contenitore o bucket. La cartella specificata è costituita da sottocartelle e ciascuna rappresenta un singolo dataset. Ogni dataset è costituito da tutti i contenuti della sottocartella.

Registrare l'archivio cloud come una condivisione file Big Data

Seguire questi passaggi per registrare l'archivio cloud creato nella sezione precedente come una condivisione file Big Data:

Accedere al sitoGeoAnalytics Server daArcGIS Server Manager.
È possibile effettuare l'accesso come un editore o amministratore.
Passare a Sito > Data Store e scegliere Condivisione file Big Data dall'elenco a discesa Registra.
Fornire le seguenti informazioni nella finestra di dialogo Registra condivisione file Big Data:
1. Digitare un nome per la condivisione file Big Data.
2. Scegliere Archivio cloud dall'elenco a discesa Tipo.
3. Scegliere il nome dell’archivio cloud dall’elenco a discesa Archivio cloud.
4. Fare clic su Crea per registrare l'archivio cloud come una condivisione file Big Data.

È ora disponibile una condivisione file Big Data e un Manifest per l’archivio cloud. L'elemento della condivisione file Big Data nel portale fa riferimento a un servizio catalogo Big Data nell'istanza di GeoAnalytics Server.

Registrare la condivisione file Big Data

Per registrare una condivisione file, HDFS, o un archivio cloudHive come una condivisione file Big Data, connettersi al sito GeoAnalytics ServermedianteArcGIS Server Manager. Per ulteriori informazioni sulle procedure necessarie, consultareRegistrare i dati inArcGIS Server tramite Manager nella guida ArcGIS Server.

Suggerimento:

I passi per registrare un archivio dati come una condivisione file Big Data sono stati descritti nella sezione precedente.

Quando una condivisione file Big Data viene registrata, viene generato un Manifest in cui è riportato il formato dei dataset presenti nella posizione della condivisione, compresi i campi che rappresentano la geometria e il tempo. Se si sceglie facoltativamente di registrare la condivisione file Big Data come posizione di output, viene generato anche un file Manifest dei modelli di output. Nel portale viene creata una condivisione file Big Data che fa riferimento al servizio catalogo Big Data nell'istanza diGeoAnalytics Server in cui i dati sono stati registrati. Per ulteriori informazioni sui servizi catalogo Big Data, consultare la documentazione Servizio catalogo Big Data nella Guida dell'API REST dei servizi ArcGIS.

Modificare una condivisione file Big Data

Quando viene creato un servizio catalogo Big Data, viene automaticamente generato e caricato un file Manifest per i dati di input nel sito diGeoAnalytics Server in cui i dati sono stati registrati. È possibile che il processo di generazione di un Manifest non stimi sempre correttamente i campi che rappresentano la geometria e il tempo e potrebbe essere necessario apportare alcune modifiche. Per modificare un manifesto, seguire la procedura in Modifica i manifesti delle condivisioni file Big Data in Manager. Per ulteriori informazioni sul file Manifest di condivisione dei file Big Data, consultare Informazioni sul file Manifest di condivisione dei file Big Data nella guida diArcGIS Server.

Modificare i modelli di output per una condivisione file Big Data

Se si sceglie di utilizzare la condivisione file Big Data come posizione di output, vengono generati automaticamente dei modelli di output. Questi modelli delineano la formattazione dei risultati di analisi di output, come il tipo di file e come tempo e geografia verranno registrati. Se si desidera modificare la geometria o il tempo della formattazione, o aggiungere o eliminare modelli, è possibile modificare i modelli. Per modificare i modelli di output, seguire la procedura in Modifica i manifesti delle condivisioni file Big Data in Manager. Per ulteriori informazioni sui modelli di output, consultare Modelli di output nelle condivisioni file a Big Data.

Eseguire analisi su una condivisione file Big Data

È possibile eseguire analisi su un dataset in una condivisione file Big Data mediante qualsiasi client che supporta GeoAnalytics Server, inclusi i seguenti:

ArcGIS Pro
Map Viewer
API REST ArcGIS
ArcGIS API for Python

Per eseguire l’analisi su una condivisione file Big DataArcGIS Pro o Map Viewer, selezionare ilGeoAnalytics Tools da utilizzare. Per fornire l’input allo strumento, passare alla posizione in cui si trovano i dati nella sezione Portale inArcGIS Pro oppure nella finestra di dialogo Sfoglia layer in Map Viewer. Se sono stati registrati, i dati saranno disponibili in I Miei Contenuti. In caso contrario, passare a Gruppi o Tutto il portale. Il layer della condivisione file Big Data selezionato per l'analisi non verrà visualizzato nella mappa.

Nota:

Accertarsi di avere effettuato l'accesso ad un account del portale che dispone dell'accesso alla condivisione file Big Data registrata. Nel portale è possibile cercare il termine bigDataFileShare* per trovare tutte le condivisioni file Big Data per le quali si dispone dell'accesso.

Per eseguire analisi su una condivisione file Big Data tramite l'API REST ArcGIS, come input utilizzare l'URL del servizio catalogo Big Data. Il formato sarà {"url":" https://webadaptorhost.domain.com/webadaptorname/rest/DataStoreCatalogs/bigDataFileShares_filesharename/BigDataCatalogServer/dataset"}. Ad esempio, con un computer denominato example, un dominio denominato esri, un Web Adaptor denominato server, una condivisione file Big Data denominata MyData, e un dataset denominato Earthquakes, l'URL sarà: {"url":" https://example.esri.com/server/rest/DataStoreCatalogs/bigDataFileShares_MyData/BigDataCatalogServer/Earthquakes"}. Per ulteriori informazioni sugli input per l'analisi Big Data tramite REST, consultare l'argomento Input di feature nella documentazione dell'API REST dei servizi ArcGIS.

Salvare risultati su una condivisione file Big Data

È possibile eseguire analisi su un dataset (condivisione file Big Data o altri input) e salvare i risultati su una condivisione file Big Data. Quando si salvano i risultati su una condivisione file Big Data, non è possibile visualizzarli. È possibile effettuare ciò con uno dei seguenti client:

Map Viewer
API REST ArcGIS
ArcGIS API for Python

Quando si scrivono risultati su una condivisione file Big Data, il manifesto di input viene aggiornato per includere il dataset appena salvato. I risultati scritti sulla condivisione file Big Data sono ora disponibili come input per l'esecuzione di un altro strumento.

Qualche feedback su questo argomento?