Iniciar com compartilhamentos do arquivo de grandes dados—ArcGIS GeoAnalytics Server

Anotação:

Na versão 10.9.1 ou posterior, registre um compartilhamento de arquivo de grandes dados por meio da página de Conteúdo do portal. Esta é a maneira recomendada de registrar compartilhamentos de arquivos de grandes dados. Somente utilize Server Manager para edição se seu compartilhamento de arquivo de grandes dados foi criado utilizando Server Manager, e você não o substituiu por um compartilhamento de arquivo de grandes dados no portal.

Um compartilhamento do arquivo big data é um item criado em seu portal que faz referência a um local disponível no seu ArcGIS GeoAnalytics Server. Você pode usar o local do compartilhamento de arquivo do big data como entrada e saída para dados de feição (dados de pontos, polilinhas, polígonos e tabulares) de ferramentas do GeoAnalytics. Quando você cria um compartilhamento de arquivo do big data por meio da página de conteúdo do portal, pelo menos dois itens são criados em seu portal:

Um item de armazenamento de dados (compartilhamento de arquivo de big data)
Um item de compartilhamento de arquivo de big data
Um item de armazenamento de dados (local de armazenamento em nuvem), se você estiver registrando um armazenamento de dados de armazenamento em nuvem para um compartilhamento de arquivo de grandes dados

O item do compartilhamento de arquivo do big data aponta para um serviço do catálogo de grandes dados, que descreve os conjuntos de dados no compartilhamento de arquivo do big data e seus esquemas, incluindo informações de geometria e tempo, e os formatos de saída, denominados de modelos, que você registrou. Ao utilizar um compartilhamento de arquivo do big data para a entrada em uma ferramenta do ArcGIS GeoAnalytics Server, é possível procurar o item do compartilhamento de arquivo do big data para executar a análise em um conjunto de dados.

Anotação:

Um compartilhamento de arquivo do big data estará somente disponível se o administrador do portal habilitou o GeoAnalytics Server. Para saber mais sobre habilitar o GeoAnalytics Server, consulte Instalar o ArcGIS GeoAnalytics Server.

Compartilhamentos de arquivo do Big Data

Há vários benefícios em utilizar um compartilhamento de arquivo do big data:

Você pode manter seus dados em um local acessível até que você esteja pronto para executar a análise. Um compartilhamento do arquivo de grandes dados acessa os dados quando a análise é executada, portanto, você pode continuar adicionando dados em um conjunto de dados existente em seu compartilhamento do arquivos de grandes dados sem ter que registrar novamente ou publicar seus dados.
Você também pode modificar o manifesto para remover, adicionar ou atualizar conjunto de dados no compartilhamento do arquivo de grandes dados.
Os compartilhamentos do arquivo de grandes dados são extremamente flexíveis sobre como o tempo e a geometria podem ser definidos e permite múltiplos formatos de tempo em um único conjunto de dados.
Os compartilhamentos do arquivo de grandes dados também permitem a você particionar seus conjuntos de dados, enquanto ainda tratar múltiplas partições como um único conjunto de dados.
O uso de compartilhamentos do arquivo de grandes dados para dados de saída permite a você armazenar seus resultados em formatos que você pode utilizar para outros fluxos de trabalho, como um arquivo de parquet para análise posterior ou armazenamento.

Anotação:

Os compartilhamentos do arquivos big data são somente acessados ao executar o GeoAnalytics Tools. Isto significa que você pode somente procurar e adicionar arquivos de grandes dados na sua análise; você não pode visualizar os dados em um mapa.

Os compartilhamentos do arquivo de grandes dados podem referenciar as seguintes fontes de dados de entrada:

Compartilhamento de arquivo—Um diretório de conjunto de dados em um disco local ou rede de compartilhamento.
Apache Hadoop Distributed File System (HDFS)—Um diretório de conjuntos de dados do HDFS .
Apache Hive—Bancos de dados de metastore do Hive.
Armazenamento na nuvem—um contêiner Amazon Simple Storage Service (S3), Microsoft Azure Blob ou armazenamento Microsoft Azure Data Lake Storage Gen2 contendo um diretório de conjuntos de dados.

Ao gravar resultados em um compartilhamento de arquivo do big data, é possível utilizar a seguinte de saída das GeoAnalytics Tools:

Compartilhamento de arquivo
HDFS
Local de armazenamento em nuvem

Os seguintes tipos de arquivos são suportados como conjuntos de dados para entrada e saída em compartilhamentos do arquivo de grandes dados:

Arquivos delimitados (como .csv, .tsv e .txt)
Shapefiles (.shp)
Arquivos Parquet (.parquet)
Anotação:
Apenas arquivos parquet não criptografados são suportados.
Arquivos ORC (.orc)

Os compartilhamentos do arquivo big data é uma das diversas maneiras que as GeoAnalytics Tools podem acessar seus dados e não são um requisito para GeoAnalytics Tools. Consulte Usar as GeoAnalytics Tools noMap Viewer Classic para uma lista de possíveis entradas de dados do GeoAnalytics Tools como saídas.

Você pode registrar quantos compartilhamentos do arquivo de grandes dados você precisar. Cada compartilhamento do arquivo de grandes dados pode ter quantos conjuntos de dados você desejar. Consulte Adicionar um compartilhamento do arquivo de grandes dados para obter instruções sobre como registrar um compartilhamento de arquivo de grandes dados no site do GeoAnalytics Server.

A tabela abaixo descreve alguns termos importantes ao falar sobre compartilhamentos do arquivo de grandes dados.


Termo	Descrição
Compartilhamento do arquivo de grandes dados	Um local registrado com seu GeoAnalytics Server para ser utilizado como entrada, saída do conjunto de dados ou ambas a entrada e saída para ferramentas do GeoAnalytics Tools.
Serviço de catálogo do Big Data	Um serviço que descreve os conjuntos de dados e esquemas de entrada e os nomes dos modelos de saída do compartilhamento do arquivos de grandes dados. Isto é criado quando seu compartilhamento do arquivo de grandes dados é registrado e seu manifesto é criado. Para aprender mais sobre serviços do catálogo do big data, consulte a documentação Serviço de Catálogo do Big Data na ajuda do ArcGIS Services REST API.
Item de compartilhamento do arquivo de grandes dados	Um item no seu portal que faz referência ao serviço de catálogo do Big Data. Você pode controlar quem pode utilizar seu compartilhamento do arquivo de grandes dados como entrada para GeoAnalytics compartilhando este item no portal.
Manifesto	Um arquivo JSON que descreve os conjuntos de dados disponíveis e o esquema para entradas em seu compartilhamento do arquivo de grandes dados. O manifesto é gerado automaticamente quando você registra um compartilhamento do arquivo de grandes dados e pode ser modificado ao editar ou utilizar um arquivo de dicas. Um único compartilhamento do arquivo de grandes dados tem um manifesto.
Modelos de saída	Um ou mais modelos que descrevem o tipo de arquivo e a formatação opcional ao gravar os resultados em um compartilhamento do arquivo de grandes dados. Por exemplo, um modelo pode especificar que os resultados sejam gravados em um shapefile. Um compartilhamento do arquivo de grandes dados pode ter nenhum, um ou mais modelos de saída.
Tipo de compartilhamento do arquivo de grandes dados	O tipo de locais que você está registrando. Por exemplo, você pode ter um compartilhamento do arquivo de grandes dados ou digitar HDFS.
Formato do conjunto de dados do compartilhamento de arquivo do big data	O formato dos dados que você está lendo ou gravando. Por exemplo, o tipo do arquivo pode ser shapefile.
Arquivo de sugestões	Um arquivo opcional que pode ser utilizado para auxiliar na geração de um manifesto para arquivos delimitados utilizados como uma entrada.

Preparar seus dados para serem registrados como um compartilhamento do arquivo de grandes dados

Para usar seus conjuntos de dados como entradas em um compartilhamento de arquivo de big data, certifique-se de que seus dados estejam formatados corretamente. Veja abaixo a formatação baseada no tipo de compartilhamento do arquivo de grandes dados.

Compartilhamentos de arquivo e HDFS

Para preparar seus dados para um compartilhamento de arquivo de big data, você deve formatar seus conjuntos de dados como subpastas em uma única pasta pai que será registrada. Nesta pasta principal que você registrar, os nomes das subpastas representarão os nomes do conjunto de dados. Se as suas subpastas tiverem múltiplas pastas ou arquivos, todo o conteúdo do nível superior das subpastas serão lidos como um único conjunto de dados e deverão compartilhar o mesmo esquema. O seguinte é um exemplo de como registrar a pasta FileShareFolder que contém três conjuntos de dados, denominados Earthquakes, Hurricanes e GlobalOceans. Ao registrar uma pasta principal, todos os subdiretórios na pasta que você especificar também serão registrados com o GeoAnalytics Server. Sempre registre a pasta principal (por exemplo, \\machinename\FileShareFolder) que contém uma ou mais pastas do conjunto de dados individual.

Exemplo de um compartilhamento do arquivo de grandes dados que contém três conjuntos de dados: Earthquakes, Hurricanes e GlobalOceans.


|---FileShareFolder                 < -- The top-level folder is what is registered as a big data file share
   |---Earthquakes                  < -- A dataset "Earthquakes", composed of 4 csvs with the same schema
      |---1960
         |---01_1960.csv
         |---02_1960.csv
      |---1961
         |---01_1961.csv
         |---02_1961.csv
   |---Hurricanes                   < -- The dataset "Hurricanes", composed of 3 shapefiles with the same schema
      |---atlantic_hur.shp
      |---pacific_hur.shp
      |---otherhurricanes.shp
   |---GlobalOceans                 < -- The dataset "GlobalOceans", composed of a single shapefile
      |---oceans.shp

Esta mesma estrutura é aplicada nos compartilhamentos de arquivo e HDFS, embora a terminologia seja diferente. Em um compartilhamento de arquivo, há uma pasta ou diretório de nível superior e os conjuntos de dados são representados pelos subdiretórios. No HDFS, a localização de compartilhamento do arquivo é registrada e contém conjuntos de dados. A tabela seguinte esboça as diferenças:


	Compartilhamento de arquivo	HDFS
Local de compartilhamento do arquivo de grandes dados	Uma pasta ou diretório	Um caminho do HDFS
Conjuntos de Dados	Subpastas de nível superior	Conjuntos de dados dentro de caminho do HDFS

Depois que seus dados estiverem organizados como uma pasta com subpastas de conjunto de dados, torne seus dados acessíveis para seu GeoAnalytics Server seguindo os passos em Tornar seus dados acessíveis para ArcGIS Server e registrar a pasta do conjunto de dados ou o caminho do HDFS por meio do portal.

Hive

No Hive, todas as tabelas em um banco de dados são reconhecidas como conjunto de dados em um compartilhamento do arquivo big data. No exemplo seguinte, há uma metastore com dois bancos de dados, default e CityData. Ao registrar um compartilhamento de arquivo de big data Hive, apenas um banco de dados pode ser selecionado. Neste exemplo, se o banco de dados CityData foi selecionado, haverá dois conjuntos de dados no compartilhamento do arquivo big data, FireData e LandParcels.


|---HiveMetastore                 < -- The top-level folder is what is registered as a big data file share
   |---default                    < -- A database
      |---Earthquakes
      |---Hurricanes
      |---GlobalOceans
   |---CityData				            < -- A database that is registered (specified in Server Manager)
      |---FireData
      |---LandParcels

Armazenamentos de dados de armazenamento em nuvem

Para preparar seus dados para um compartilhamento de arquivo de grandes dados em um local de armazenamento em nuvem, formate seus conjuntos de dados como subpastas em uma única pasta pai.

O seguinte é um exemplo de como estruturar seus dados. Este exemplo registra a pasta principal, FileShareFolder, que contém três conjuntos de dados: Earthquakes, Hurricanes e GlobalOceans. Ao registrar uma pasta principal, todos os subdiretórios na pasta que você especificar também serão registrados com o GeoAnalytics Server.

Exemplo de como estruturar dados em um local de armazenamento em nuvem que será usado como compartilhamento de arquivos de grandes dados. Este arquivo de grandes dados contém três conjunto de dados: Earthquakes, Hurricanes e GlobalOceans.


|---Cloud Store                          < -- The cloud storage location being registered
   |---Container or S3 Bucket Name       < -- The container (Azure) or bucket (Amazon) being registered as part of the cloud storage data store
      |---FileShareFolder                < -- The parent folder that is registered as the 'folder' during cloud storage registration
         |---Earthquakes                 < -- The dataset "Earthquakes", composed of 4 csvs with the same schema
            |---1960
               |---01_1960.csv
               |---02_1960.csv
            |---1961
               |---01_1961.csv
               |---02_1961.csv
         |---Hurricanes                  < -- The dataset "Hurricanes", composed of 3 shapefiles with the same schema
            |---atlantic_hur.shp
            |---pacific_hur.shp
            |---otherhurricanes.shp
         |---GlobalOceans                < -- The dataset "GlobalOceans", composed of 1 shapefile
            |---oceans.shp

Gerenciar compartilhamentos de arquivo do big data em um portal

Depois de criar um compartilhamento de arquivo de big data, você pode revisar os conjuntos de dados nele e os modelos que descrevem como os resultados salvos em compartilhamentos de arquivo de big data serão gravados.

Modificar um compartilhamento de arquivo do big data

Quando um item de compartilhamento de arquivo de big data é criado, um manifesto para os dados de entrada é gerado e carregado automaticamente. O processo de gerar um manifesto nem sempre pode estimar os campos representando a geometria e o tempo corretamente e você pode precisar aplicar edições. Para editar um manifesto e como os conjuntos de dados são representados, siga as etapas em Editar compartilhamentos de arquivos de big data.. Para saber mais sobre o manifesto de compartilhamento de arquivos do big data, consulte Manifesto de compartilhamento de arquivos do big data na ajuda do ArcGIS Server.

Se você criou seu compartilhamento de arquivo de big data no ArcGIS Server utilizando Manager, siga as etapas em Editar manifestos do compartilhamento de arquivo de big data no Server Manager.

Modifique modelos de saída para um compartilhamento de arquivo de big data

Quando você escolhe utilizar o compartilhamento de arquivo do big data como um local de saída, os modelos de saída são gerados automaticamente. Estes modelos descrevem a formatação dos resultados da análise de saída, como o tipo de arquivo e como o tempo e a geometria serão registrados. Se você deseja modificar a geometria ou a formatação de hora, ou adicionar ou excluir modelos, poderá modificar os modelos. Para editar os modelos de saída, siga as etapas em Crie, edite e visualize modelos de saída. Para aprender mais sobre modelos de saída, consulte Modelos de saída em um compartilhamentos de arquivo do big data.

Se você criou seu compartilhamento de arquivo de big data no ArcGIS Server utilizando Manager, siga as etapas em Editar manifestos do compartilhamento de arquivo de big data no Server Manager .

Migrar compartilhamentos de arquivos de big data criados no Server Manager para um portal

Os compartilhamentos de arquivos de big data criados usando um portal têm muitas vantagens sobre os compartilhamentos de arquivos de big data criados no Server Manager, por exemplo:

Uma experiência de usuário aprimorada para facilitar a edição de conjuntos de dados.
Experiência mais simples para registrar seus compartilhamentos de arquivos de big data.
Os itens são armazenados e compartilhados usando credenciais do portal

É recomendável criar um item de armazenamento de dados para os compartilhamentos do arquivo de grandes dados criados no Server Manager. Em alguns casos, é necessário. Nos casos a seguir, você deverá migrar compartilhamentos de arquivos de grandes dados para serem itens do armazenamento de dados no portal para continuar a usá-los:

Compartilhamentos de arquivos de grandes dados com base em um armazenamento de dados de armazenamento em nuvem do Microsoft Azure Data Lake Storage Gen1

Para migrar um compartilhamento do arquivo de grandes dados criado no Server Manager para um item do armazenamento de dados do portal, certifique-se de ter o seguinte:

As credenciais e o local do arquivo de seu compartilhamento de arquivo de big data configurado.
Se aplicável, as credenciais e o local do arquivo do armazenamento de dados de armazenamento em nuvem configurado.

Depois de saber as credenciais, conclua as seguintes etapas:

Entre no Server Manager em seu site do GeoAnalytics Server.
Vá até Site > Armazenamentos de Dados. Clique no botão de edição no compartilhamento de arquivo de big data que você gostaria de migrar.
Vá até Avançado > Manifesto. Clique no botão Download para salvar o manifesto.
Se você tiver alguma dica, conclua as mesmas etapas para dicas. Clique em DicasDownload para salvar seu arquivo de dicas. Renomeie sua extensão de arquivo do .dat para .txt.txt.
Se você tiver modelos de saída na seção AvançadoModelos de Saída, copie o texto e salve-o em um arquivo de texto.
Crie um compartilhamento do arquivo de grandes dados na página Conteúdo do portal usando o mesmo tipo e local de entrada usado anteriormente.
Se você não souber as credenciais, seu administrador poderá encontrá-las no Administrador do Servidor utilizando a opção decrypt=true no compartilhamento de arquivos de grandes dados e itens de armazenamento de dados de armazenamento em nuvem.
Siga as etapas em Adicionar um item de armazenamento de dados e use as mesmas credenciais e localização do seu compartilhamento de arquivo de grandes dados existente.
Depois que o item de compartilhamento do arquivo de grandes dados for criado, clique em Conjuntos de dados e ative a opção Mostrar avançado.
Carregue o manifesto que você salvou anteriormente clicando em Transferir na seção do manifesto. Vá até o arquivo JSON de manifesto que foi salvo anteriormente e clique em Transferir. Clique no botão Sincronizar para que as alterações sejam refletidas.
Se você tiver um arquivo de dicas para transferir, conclua as mesmas etapas e transfira seu arquivo de dicas na opção Mostrar avançado > Dicas > Tansferir. Clique no botão Sincronizar para que as alterações sejam refletidas.
Para carregar os modelos de saída, siga um destes procedimentos:
- Adicione manualmente os modelos de saída usando o item de compartilhamento de arquivo de big data Saída > Adicionar modelos de saída.
- Edite o arquivo JSON do item de compartilhamento de arquivo de big data através do ArcGIS Server Administrator Directory. Isso só é recomendado se você estiver familiarizado com a edição de arquivos JSON.

Agora você tem um compartilhamento de arquivo de big data e um manifesto para seu item de compartilhamento de arquivo de big data em seu portal. Você pode atualizar seus fluxos de trabalho para usar e apontar para esse compartilhamento de arquivo de big data. Quando tiver certeza de que está funcionando conforme o esperado, exclua seu compartilhamento de arquivo big data original no Server Manager.

Executar a análise em um compartilhamento de arquivo do big data

Você pode executar a análise em um conjunto de dados em um compartilhamento de arquivo big data por quaisquer clientes que suportem GeoAnalytics Server, que inclui o seguinte:

ArcGIS Pro
Map Viewer Classic
ArcGIS REST API
ArcGIS API for Python

Para executar sua análise em um compartilhamento de arquivo big data através do ArcGIS Pro ou Map Viewer Classic, selecione a GeoAnalytics Tools que deseja utilizar. Para a entrada da ferramenta, navegue até onde seus dados estão localizados no Portal no ArcGIS Pro ou na caixa de diálogo Procurar Camadas no Map Viewer Classic. Os dados estarão em Meu Conteúdo se você mesmo registrou os dados. Caso contrário, procure em Grupos ou Portal Inteiro. Note que uma camada do compartilhamento de arquivo do big data selecionada para análise não será exibida no mapa.

Anotação:

Assegure-se de estar conectado com uma conta do portal que tenha acesso ao compartilhamento de arquivo de big data registrado. Você pode procurar seu portal com o termo bigDataFileShare* para localizar rapidamente todos os compartilhamentos de arquivo do big data que você pode acessar.

Para executar a análise em um compartilhamento de arquivo do big data através do ArcGIS REST API, utilize a URL de serviço do catálogo do big data como a entrada. Se você criou o compartilhamento de arquivo de big data no portal, ele estará no formato {"url":" https://webadaptorhost.domain.com/webadaptorname/rest/DataStoreCatalogs/bigDataFileShares_filesharename/"}. Por exemplo, com uma máquina denominada example, um domínio denominado esri, um web adaptor denominado server, um compartilhamento de arquivo do big data denominado MyData e um conjunto de dados denominado Earthquakes, a URL será: {"url":" https://example.esri.com/server/rest/DataStoreCatalogs/bigDataFileShares_MyData/Earthquakes_uniqueID"}. Se você criou o compartilhamento de arquivo de big data no Server Manager, será no formato {"url":"https://webadaptorhost.domain.com/webadaptorname/rest/DataStoreCatalogs/bigDataFileShares_filesharename/BigDataCatalogServer/dataset"}

Para aprender mais sobre a entrada para análise de grandes dados através do REST, consulte o tópico Entrada de Feição na documentação do ArcGIS Services REST API.

Salvar resultados em um compartilhamento do arquivo de grandes dados

Você pode executar a análise em um conjunto de dados (compartilhamento do arquivo de grandes dados ou outra entrada) e salvar os resultados em um compartilhamento do arquivo de grandes dados. Você pode fazer isto através dos seguintes clientes:

Map Viewer Classic
ArcGIS REST API
ArcGIS API for Python

Quando você grava resultados em um compartilhamento de arquivo do big data, o manifesto de entrada é atualizado para incluir o conjunto de dados que você acabou de salvar. Os resultados que você gravou no compartilhamento de arquivo do big data agora estão disponíveis como uma entrada para outra execução da ferramenta. Quando você salva os resultados em um compartilhamento de arquivo do big data, não é possível visualizá-los.

Comentário neste tópico?