Introduzione alle condivisioni file Big Data—ArcGIS GeoAnalytics Server

Nota:

Alla versione 10.9.1 o successiva, registrare una condivisione di file Big Data tramite la pagina dei contenuti del portale. Questo è il modo consigliato per registrare le condivisioni di file Big Data. Utilizzare Server Manager solo per la modifica se la condivisione file Big Data è stata creata utilizzando Server Manager, e non è stata sostituita con una condivisione file Big Data nel portale.

Una condivisione file Big Data è un elemento creato nel portale che fa riferimento a una posizione disponibile in ArcGIS GeoAnalytics Server. È possibile utilizzare la posizione di condivisione file Big Data come input e output per i dati delle feature (punti, polilinee, poligoni e dati tabulari) degli strumenti GeoAnalytics. Quando crei una condivisione di file Big Data tramite la pagina dei contenuti del portale, vengono creati almeno due elementi nel portale:

Un elemento Data Store (condivisione file Big Data)
Un elemento di condivisione file Big Data
Un elemento Data Store (posizione di archiviazione cloud), se si sta registrando un data store di archiviazione cloud per una condivisione file Big Data

L'elemento di condivisione file Big Data punta a un servizio di catalogo Big Data, che delinea i set di dati nella condivisione file Big Data e il relativo schema, incluse le informazioni sulla geometria e l'ora, e i formati di output, denominati modelli, che hai registrato. Quando si utilizza una condivisione di file di Big Data per l'immissione a uno strumento ArcGIS GeoAnalytics Server, è possibile passare all'elemento di condivisione di file di Big Data per eseguire l'analisi su un set di dati.

Nota:

Una condivisione file Big Data è disponibile solo se l'amministratore del portale ha abilitato GeoAnalytics Server. Per maggiori informazioni sull'abilitazione di GeoAnalytics Server, consultareConfigurareArcGIS GeoAnalytics Server.

Condivisione di grandi file di dati

Ci sono diversi vantaggi nell'usare una condivisione di file Big Data:

È possibile conservare i dati nella posizione accessibile finché non sono pronti per essere sottoposti ad analisi. Una condivisione file Big Data consente di accedere ai dati durante l’esecuzione dell’analisi. Pertanto, sarà possibile continuare ad aggiungere i dati in un dataset esistente nella condivisione file Big Data esistente senza doverli registrare di nuovo o pubblicare.
È anche possibile modificare il file Manifest per rimuovere, aggiungere o aggiornare dataset nella condivisione file Big Data.
Le condivisioni file Big Data sono caratterizzate da una maggiore flessibilità a livello di definizione del tempo e della geometria, consentendo in questo modo di utilizzare più formati ora in un unico dataset.
Le condivisioni file Big Data consentono inoltre di eseguire la partizione dei dataset e continuare a considerare le varie partizioni come un unico dataset.
Utilizzare condivisioni file Big Data per dati di output permette di archiviare i risultati in formati che si possono utilizzare per altri flussi di lavoro, come un file parquet per un ulteriore analisi o archiviazione.

Nota:

L'accesso alle condivisioni file Big Data è possibile solo quando si esegue GeoAnalytics Tools. Ciò significa che è solo possibile sfogliare e aggiungere file Big Data all'analisi. Non sarà pertanto possibile visualizzare i dati in una mappa.

Le condivisioni file Big Data possono fare riferimento alle origini dei dati di input riportate di seguito:

Condivisione file: una directory di dataset su un disco locale o condivisione di rete.
Apache Hadoop Distributed File System (HDFS)— UnaHDFS directory di dataset.
Apache Hive—Hive database di metastore.
Archiviazione cloud: un contenitoreAmazon Simple Storage Service (S3), contenitore Blob Microsoft Azure, o archivio Microsoft Azure Data Lake Storage Gen2 contenente una directory di dataset.

Quando si scrivono risultati in una condivisione file Big Data, è possibile utilizzare il seguente di output GeoAnalytics Tools:

Condivisione file
HDFS
Posizione di archiviazione cloud

I seguenti tipi di dati sono supportati come dataset in condivisioni file Big Data di input e output:

File delimitati (come .csv, .tsv, e .txt)
Shapefile (.shp)
File parquet (.parquet)
Nota:
Sono supportati solo i file di parquet non criptati.
File ORC (.orc)

Le condivisioni file Big Data sono uno dei diversi metodi di accesso ai dati daGeoAnalytics Tools e non sono un requisito per GeoAnalytics Tools. Consultare Uso di GeoAnalytics Tools in Map Viewer classico per un elenco di possibili input e output di dati di GeoAnalytics Tools.

È possibile registrare tutte le condivisione file Big Data necessarie. Ogni condivisione file Big Data può avere tutti i dataset necessari. Consultare Aggiungi una condivisione file Big Data per le istruzioni per registrare una condivisione di file Big Data con il sito GeoAnalytics Server.

La tabella sottostante delinea alcuni importanti elementi riguardanti le condivisioni file Big Data


Periodo	Descrizione
Condivisione file Big Data	Una posizione registrata con il proprio GeoAnalytics Server da usare come input, output, o input e output del dataset per i GeoAnalytics Tools.
Servizio catalogo Big Data	Un servizio che delinea i dataset e schemi di input e nomi dei modelli di output della condivisione file Big Data. Questo è creato quando una condivisione file Big Data viene registrata e il manifesto viene creato. Per ulteriori informazioni sui servizi catalogo Big Data, consultare la documentazione Servizio catalogo Big Data nella Guida dell'API REST dei servizi ArcGIS.
Elemento della condivisione file Big Data	Un elemento nel portale che fa riferimento al servizio catalogo Big Data. È possibile controllare chi utilizza la condivisione file Big Data come input in GeoAnalytics condividendo questo elemento nel portale.
Manifesto	Un file JSON che delinea i dataset disponibili e schemi per input nella condivisione file Big Data. Il manifesto viene generato automaticamente quando si registra una condivisione file Big Data e può essere modificato editando o utilizzando un file dei suggerimenti. Una condivisione file Big Data singola ha un file Manifest.
Modelli di output	Uno o più modelli che delineano tipo di file e formattazione opzionale quando si scrivono risultati su una condivisione file Big Data. Ad esempio, un modello potrebbe specificare che i risultati sono scritti su un shapefile. Una condivisione file Big Data può avere nessuno, uno o più modelli di output.
Tipo di condivisione file Big Data	Il tipo di posizioni che si stanno registrando. Ad esempio, è possibile avere una condivisione file Big Data o un tipo di HDFS.
Formato dataset di condivisione file Big Data	Il formato dei dati che si leggono o scrivono. Ad esempio, il tipo di file può essere shapefile.
File dei suggerimenti	Un file opzionale che può essere utilizzato per assistere nella generazione di un manifesto per file delimitati utilizzati come input.

Preparare i dati per la registrazione come condivisione file Big Data

Per utilizzare i dataset come input in una condivisione file Big Data, assicurarsi che i dati siano formattati correttamente. Per la formattazione basata sul tipo di condivisione file Big Data, vedere di seguito.

Condivisioni file e HDFS

Per preparare i dati per una condivisione file Big Data, è necessario formattare i dataset come sottocartelle di un'unica cartella madre che verrà registrata. In questa cartella padre registrata, i nomi delle sottocartelle rappresentano i nomi dei dataset. Se le sottocartelle contengono più cartelle e/o file, tutti i contenuti delle sottocartelle di primo livello vengono letti come un unico dataset e devono condividere lo stesso schema. Di seguito è illustrato un esempio di come registrare la cartellaFileShareFolder contenente tre dataset denominati Earthquakes, Hurricanes, e GlobalOceans. Quando si registra una cartella padre, nel server vengono registrate anche tutte le sottodirectory della cartella specificata con il GeoAnalytics Server. Registrare sempre la cartella padre (ad esempio, \\machinename\FileShareFolder, contenente una o più cartelle di dataset.

Esempio di una condivisione file Big Data contenente tre dataset: Earthquakes, Hurricanes e GlobalOceans.


|---FileShareFolder                 < -- The top-level folder is what is registered as a big data file share
   |---Earthquakes                  < -- A dataset "Earthquakes", composed of 4 csvs with the same schema
      |---1960
         |---01_1960.csv
         |---02_1960.csv
      |---1961
         |---01_1961.csv
         |---02_1961.csv
   |---Hurricanes                   < -- The dataset "Hurricanes", composed of 3 shapefiles with the same schema
      |---atlantic_hur.shp
      |---pacific_hur.shp
      |---otherhurricanes.shp
   |---GlobalOceans                 < -- The dataset "GlobalOceans", composed of a single shapefile
      |---oceans.shp

Questa stessa struttura viene applicata alle condivisioni file e HDFS, anche se la terminologia è diversa. In una condivisione file è presente una cartella o una directory di primo livello e i dataset sono rappresentati dalle sottodirectory. In HDFS, la posizione della condivisione file viene registrata e include i dataset. Nella tabella seguente vengono evidenziate le differenze:


	Condivisione file	HDFS
Posizione della condivisione file Big Data	Una cartella o directory	Un percorso HDFS
Dataset	Sottocartelle di primo livello	Dataset all'interno del percorso HDFS

Dopo aver organizzato i dati come una cartella contenente sottocartelle di dataset, rendere i dati accessibili a GeoAnalytics Server eseguendo la procedura descritta in Rendere i dati accessibili a ArcGIS Server e registrando la cartella di dataset o il percorso HDFS tramite il portale.

Hive

In Hive, tutte le tabelle di un database vengono riconosciute come dataset di una condivisione file Big Data. Nell'esempio seguente è presente un metastore con due database,default e CityData. Durante la registrazione di una condivisione file Big Data Hive, è possibile selezionare solo un database. In questo esempio, se viene selezionato il database CityData, saranno presenti due dataset nella condivisione file Big Data, ovveroFireData e LandParcels.


|---HiveMetastore                 < -- The top-level folder is what is registered as a big data file share
   |---default                    < -- A database
      |---Earthquakes
      |---Hurricanes
      |---GlobalOceans
   |---CityData				            < -- A database that is registered (specified in Server Manager)
      |---FireData
      |---LandParcels

Data store archiviazione cloud

Per preparare i dati per una condivisione file Big Data in una posizione di archiviazione cloud, è necessario formattare i dataset come sottocartelle di un'unica cartella padre.

Di seguito è riportato un esempio di come strutturare i dati. Questo esempio registra la cartella padre, FileShareFolder, che contiene tre dataset: Earthquakes, Hurricanes, e GlobalOceans. Quando si registra una cartella padre, nel server vengono registrate anche tutte le sottodirectory della cartella specificata con il GeoAnalytics Server.

Esempio di come strutturare i dati in una posizione di archiviazione cloud che verrà utilizzata come una condivisione file Big Data. Questo file Big Data contiene tre dataset: Earthquakes, Hurricanes e GlobalOceans.


|---Cloud Store                          < -- The cloud storage location being registered
   |---Container or S3 Bucket Name       < -- The container (Azure) or bucket (Amazon) being registered as part of the cloud storage data store
      |---FileShareFolder                < -- The parent folder that is registered as the 'folder' during cloud storage registration
         |---Earthquakes                 < -- The dataset "Earthquakes", composed of 4 csvs with the same schema
            |---1960
               |---01_1960.csv
               |---02_1960.csv
            |---1961
               |---01_1961.csv
               |---02_1961.csv
         |---Hurricanes                  < -- The dataset "Hurricanes", composed of 3 shapefiles with the same schema
            |---atlantic_hur.shp
            |---pacific_hur.shp
            |---otherhurricanes.shp
         |---GlobalOceans                < -- The dataset "GlobalOceans", composed of 1 shapefile
            |---oceans.shp

Gestire le condivisioni di file di grandi dati in un portale

Dopo aver creato una condivisione file Big Data, è possibile revisionare i dataset in essa e i modelli che sottolineano come i risultati salvati nelle condivisioni file Big Data verranno scritti.

Modificare una condivisione file Big Data

Quando viene creato un elemento di condivisione file Big Data, viene generatoe caricato automaticamente un manifest per i dati di input. È possibile che il processo di generazione di un Manifest non stimi sempre correttamente i campi che rappresentano la geometria e il tempo e potrebbe essere necessario apportare alcune modifiche. Per modificare un manifest e il modo in cui i dataset vengono rappresentati, seguire i passaggi in Modificare le condivisioni file Big Data. Per ulteriori informazioni sul manifest della condivisione file Big Data, consultare Manifest della condivisione file Big Data nella guida di ArcGIS Server.

Se si è creata la condivisione file Big Data in ArcGIS Server usando il Manager, seguire i passaggi in Modificare i manifest delle condivisioni file Big Data in Server Manager.

Modificare i modelli di output per una condivisione file Big Data

Se si sceglie di utilizzare la condivisione file Big Data come posizione di output, vengono generati automaticamente dei modelli di output. Questi modelli delineano la formattazione dei risultati di analisi di output, come il tipo di file e come tempo e geografia verranno registrati. Se si desidera modificare la geometria o il tempo della formattazione, o aggiungere o eliminare modelli, è possibile modificare i modelli. Per modificare i modelli di output, seguire i passaggi in Creare, modificare e visualizzare i modelli di output. Per ulteriori informazioni sui modelli di output, consultare Modelli di output nelle condivisioni file a Big Data.

Se si è creata la condivisione file Big Data in ArcGIS Server usando il Manager, seguire i passaggi in Modificare i manifest delle condivisioni file Big Data in Server Manager.

Migrare le condivisioni file Big Data create in Server Manager in un portale

Le condivisioni file Big Data create usando un portale hanno diversi vantaggi rispetto alle condivisioni file Big Data create in Server Manager, ad esempio:

Un'esperienza utente migliorata per rendere più facile la modifica dei dataset.
Un'esperienza più semplice per registrare le condivisiono file Big Data.
Gli elementi vengono archiviati e condivisi usando le credenziali del portale

Si consiglia di creare un elemento data store per le condivisioni di file Big Data create in Server Manager. In alcuni casi, ciò è obbligatorio. Nei seguenti casi, è necessario migrare le condivisioni file Big Data affinché siano elementi di data store in un portale per continuare a utilizzarle:

Condivisioni di file Big Data file su un data store di archiviazione cloud Microsoft Azure Data Lake Storage Gen1.

Per migrare una condivisione file Big Data creata in Server Manager in un elemento data store del portale, assicurarsi di disporre dei seguenti elementi:

Le credenziali e la posizione del file della condivisione file Big Data configurata.
Se applicabile, le credenziali e la posizione file del data store di archiviazione cloud configurato.

Una volta ottenute le credenziali, completare i seguenti passaggi:

Accedere a Server Manager nel sito di GeoAnalytics Server.
Passare a Site > Data Store. Fare clic sul pulsante di modifica nella condivisione file Big Data che si desidera migrare.
Passare a Avanzato > Manifest. Fare clic sul pulsante Download per salvare il manifest.
Se si dispone di suggerimenti, completare gli stessi passaggi anche per essi. Fare clic su SuggerimentiDownload per salvare il file dei suggerimenti. Rinominare l'estensione file da .dat a .txt.txt.
Se si dispone di modelli di output nella sezione AvanzatoModelli di output, copiare il testo e salvarlo in un file di testo.
Creare una condivisione file Big Data nella pagina dei Contenuti del portale usando lo stesso tipo e posizione di input usati in precedenza.
Se non si conoscono le credenziali, il proprio amministratore può recuperarle in Server Administrator usando l'opzione decrypt=true nella condivisione del file Big Data e negli elementi del data store di archiviazione cloud.
Seguire i passaggi in Aggiungere un elemento al data store, e utilizzare le stesse credenziali e la stessa posizione della condivisione del file Big Data esistente.
Dopo aver creato l'elemento di condivisione del file Big Data, fare clic su Dataset, e attivare l'opzione Mostra avanzate.
Caricare il manifest salvato precedentemente facendo clic su Carica nella sezione del manifest. Cercare il file JSON del manifest salvato precedentemente e fare clic su Carica. Fare clic sul pulsante Sincronizza in modo da riflettere le modifiche.
Se si dispone di un file dei suggerimenti da caricare, completare gli stessi passaggi e caricare il file con l'opzione Mostra avanzate > Suggerimenti > Carica. Fare clic sul pulsante Sincronizza in modo da riflettere le modifiche.
Per caricare i modelli di output, eseguire una delle seguenti operazioni:
- Aggiungere manualmente i modelli di input usando l'elemento di condivisione file Big Data Output > Aggiungi modelli di output.
- Modificare il file JSON della condivisione file Big Data tramite ArcGIS Server Administrator Directory. Questa operazione è consigliata solo se si conosce come modificare i file JSON.

Ora si dispone di una condivisione file Big Data e un manifest per la condivisione file Big Data nel proprio portale. È possibile caricare i propri flussi di lavoro da utilizzare e puntare a questa condivisione file Big Data. Quando si è sicuri che funzioni correttamente, eliminare la condivisione file Big Data originale in Server Manager.

Eseguire analisi su una condivisione file Big Data

È possibile eseguire analisi su un dataset in una condivisione file Big Data mediante qualsiasi client che supporta GeoAnalytics Server, inclusi i seguenti:

ArcGIS Pro
Map Viewer classico
ArcGIS REST API
ArcGIS API for Python

Per eseguire l’analisi su una condivisione file Big DataArcGIS Pro o Map Viewer classico, selezionare ilGeoAnalytics Tools da utilizzare. Per fornire l’input allo strumento, passare alla posizione in cui si trovano i dati nella sezione Portale inArcGIS Pro oppure nella finestra di dialogo Sfoglia layer in Map Viewer classico. Se sono stati registrati, i dati saranno disponibili in I Miei Contenuti. In caso contrario, passare a Gruppi o Tutto il portale. Il layer della condivisione file Big Data selezionato per l'analisi non verrà visualizzato nella mappa.

Nota:

Accertarsi di avere effettuato l'accesso a un account del portale che dispone dell'accesso alla condivisione file Big Data registrata. Nel portale è possibile cercare il termine bigDataFileShare* per trovare tutte le condivisioni file Big Data per le quali si dispone dell'accesso.

Per eseguire analisi su una condivisione file Big Data tramite ArcGIS REST API, utilizzare come input l'URL del servizio catalogo Big Data. Se si è creata la condivisione file Big Data nel portale, questa sarà nel formato {"url":" https://webadaptorhost.domain.com/webadaptorname/rest/DataStoreCatalogs/bigDataFileShares_filesharename/"}. Ad esempio, con un computer denominato example, un dominio denominato esri, un Web Adaptor denominato server, una condivisione file Big Data denominata MyData, e un dataset denominato Earthquakes, l'URL sarà: {"url":" https://example.esri.com/server/rest/DataStoreCatalogs/bigDataFileShares_MyData/Earthquakes_uniqueID"}. Se si è creata la condivisone file Big Data in Server Manager, questa sarà nel formato {"url":"https://webadaptorhost.domain.com/webadaptorname/rest/DataStoreCatalogs/bigDataFileShares_filesharename/BigDataCatalogServer/dataset"}.

Per ulteriori informazioni sugli input per l'analisi Big Data tramite REST, consultare l'argomento Input di feature nella documentazione dell'API REST dei servizi ArcGIS.

Salvare risultati su una condivisione file Big Data

È possibile eseguire analisi su un dataset (condivisione file Big Data o altri input) e salvare i risultati su una condivisione file Big Data. È possibile effettuare ciò con uno dei seguenti client:

Map Viewer classico
ArcGIS REST API
ArcGIS API for Python

Quando si scrivono risultati su una condivisione file Big Data, il manifesto di input viene aggiornato per includere il dataset appena salvato. I risultati scritti sulla condivisione file Big Data sono ora disponibili come input per l'esecuzione di un altro strumento. Quando si salvano i risultati su una condivisione file Big Data, non è possibile visualizzarli.

Qualche feedback su questo argomento?