Sobre compartilhamentos do arquivo de grandes dados
Um compartilhamento do arquivo big data é um item criado em seu portal que faz referência a um local disponível no seu ArcGIS GeoAnalytics Server. O local de compartilhamento do arquivo de grandes dados pode ser utilizado como entrada e saída para dados de feição (dados de pontos, polilinhas, polígonos e tabulares) de ferramentas do GeoAnalytics. Quando você cria um compartilhamento do arquivo de grandes dados, um item é criado no seu portal. O item aponta para um serviço do catálogo de grandes dados, que descreve os conjuntos de dados no compartilhamento do arquivo de grandes dados e seus esquemas, incluindo informações de geometria e tempo, e os formatos de saída, denominados de modelos, que você registrou. Ao utilizar um compartilhamento do arquivo big data para a entrada em uma ferramenta do ArcGIS GeoAnalytics Server, é possível procurar o item para executar a análise em um conjunto de dados.
Há vários benefícios em utilizar um compartilhamento do arquivo de grandes dados. Você pode manter seus dados em um local acessível até que você esteja pronto para executar a análise. Um compartilhamento do arquivo de grandes dados acessa os dados quando a análise é executada, portanto, você pode continuar adicionando dados em um conjunto de dados existente em seu compartilhamento do arquivos de grandes dados sem ter que registrar novamente ou publicar seus dados. Você também pode modificar o manifesto para remover, adicionar ou atualizar conjunto de dados no compartilhamento do arquivo de grandes dados. Os compartilhamentos do arquivo de grandes dados são extremamente flexíveis em como o tempo e a geometria podem ser definidos e permite múltiplos formatos de tempo em um único conjunto de dados. Os compartilhamentos do arquivo de grandes dados também permitem a você particionar seus conjuntos de dados, enquanto ainda tratar múltiplas partições como um único conjunto de dados. O uso de compartilhamentos do arquivo de grandes dados para dados de saída permite a você armazenar seus resultados em formatos que você pode utilizar para outros fluxos de trabalho, como um arquivo de parquet para análise posterior ou armazenamento.
Anotação:
Os compartilhamentos do arquivos big data são somente acessados ao executar o GeoAnalytics Tools. Isto significa que você pode somente procurar e adicionar arquivos de grandes dados na sua análise; você não pode visualizar os dados em um mapa.
Os compartilhamentos do arquivo de grandes dados podem referenciar as seguintes fontes de dados de entrada:
- Compartilhamento de arquivo—Um diretório de conjunto de dados em um disco local ou rede de compartilhamento.
- Apache Hadoop Distributed File System (HDFS)—Um diretório de conjuntos de dados do HDFS .
- Apache Hive—Bancos de dados de metastore do Hive.
- Armazenamento na nuvem—Um recipiente do Amazon Simple Storage Service (S3), contêiner do Microsoft Azure Blob ou armazenamento do Microsoft Azure Data Lake contendo um diretório de conjuntos de dados.
Ao gravar resultados em um compartilhamento do arquivo big data, é possível utilizar a seguinte GeoAnalytics Tools de saída:
- Compartilhamento de arquivo
- HDFS
- Armazenamento de nuvem
Os seguintes tipos de arquivos são suportados como conjuntos de dados para entrada e saída em compartilhamentos do arquivo de grandes dados:
- Arquivos delimitados (como .csv, .tsv e .txt)
- Shapefiles (.shp)
- Arquivos Parquet (.gz.parquet)
- Arquivos ORC (orc.crc)
Anotação:
Um compartilhamento do arquivo big data está somente disponível para utilizar se o administrador do portal habilitou o GeoAnalytics Server. Para saber mais sobre habilitar o GeoAnalytics Server, consulte Instalar o ArcGIS GeoAnalytics Server.
Os compartilhamentos do arquivo big data é uma das diversas maneiras que as GeoAnalytics Tools podem acessar seus dados e não são um requisito para GeoAnalytics Tools. Consulte Usar as GeoAnalytics Tools noMap Viewer para uma lista de possíveis entradas de dados do GeoAnalytics Tools como saídas.
Você pode registrar quantos compartilhamentos do arquivo de grandes dados você precisar. Cada compartilhamento do arquivo de grandes dados pode ter quantos conjuntos de dados você desejar.
A tabela abaixo descreve alguns termos importantes ao falar sobre compartilhamentos do arquivo de grandes dados.
Termo | Descrição |
---|---|
Compartilhamento do arquivo de grandes dados | Um local registrado com seu GeoAnalytics Server para ser utilizado como entrada, saída do conjunto de dados ou ambas a entrada e saída para ferramentas do GeoAnalytics. |
Serviço de catálogo do Big Data | Um serviço que descreve os conjuntos de dados e esquemas de entrada e os nomes dos modelos de saída do compartilhamento do arquivos de grandes dados. Isto é criado quando seu compartilhamento do arquivo de grandes dados é registrado e seu manifesto é criado. Para aprender mais sobre serviços do catálogo de grandes dados, consulte a documentação Serviço do Catálogo de Grandes Dados na ajuda do ArcGIS Services REST API. |
Item de compartilhamento do arquivo de grandes dados | Um item no seu portal que faz referência ao serviço de catálogo do Big Data. Você pode controlar quem pode utilizar seu compartilhamento do arquivo de grandes dados como entrada para GeoAnalytics compartilhando este item no portal. |
Manifesto | Um arquivo JSON que descreve os conjuntos de dados disponíveis e o esquema para entradas em seu compartilhamento do arquivo de grandes dados. O manifesto é gerado automaticamente quando você registra um compartilhamento do arquivo de grandes dados e pode ser modificado ao editar ou utilizar um arquivo de dicas. Um único compartilhamento do arquivo de grandes dados tem um manifesto. |
Modelos de saída | Um ou mais modelos que descrevem o tipo de arquivo e a formatação opcional ao gravar os resultados em um compartilhamento do arquivo de grandes dados. Por exemplo, um modelo pode especificar que os resultados sejam gravados em um shapefile. Um compartilhamento do arquivo de grandes dados pode ter nenhum, um ou mais modelos de saída. |
Tipo de compartilhamento do arquivo de grandes dados | O tipo de locais que você está registrando. Por exemplo, você pode ter um compartilhamento do arquivo de grandes dados ou digitar HDFS. |
Formato do conjunto de dados de compartilhamento do arquivo de grandes dados | O formato dos dados que você está lendo ou gravando. Por exemplo, o tipo do arquivo pode ser shapefile. |
Arquivo de sugestões | Um arquivo opcional que pode ser utilizado para auxiliar na geração de um manifesto para arquivos delimitados utilizados como uma entrada. |
Preparar seus dados para serem registrados como um compartilhamento do arquivo de grandes dados
Para utilizar seus conjuntos de dados como entradas em um compartilhamento do arquivo de grandes dados, você precisa verificar se os dados estão formatados corretamente. Veja abaixo a formatação baseada no tipo de compartilhamento do arquivo de grandes dados.
Compartilhamentos de arquivo e HDFS
Para preparar seus dados para um compartilhamento do arquivo de grandes dados, você precisa formatar seus conjuntos de dados como subpastas em uma única pasta principal que será registrada. Nesta pasta principal que você registrar, os nomes das subpastas representarão os nomes do conjunto de dados. Se as suas subpastas tiverem múltiplas pastas ou arquivos, todo o conteúdo do nível superior das subpastas serão lidos como um único conjunto de dados e deverão compartilhar o mesmo esquema. O seguinte é um exemplo de como registrar a pasta FileShareFolder que contém três conjuntos de dados, denominados Earthquakes, Hurricanes e GlobalOceans. Ao registrar uma pasta principal, todos os subdiretórios na pasta que você especificar também serão registrados com o GeoAnalytics Server. Sempre registre a pasta principal (por exemplo, \\machinename\FileShareFolder) que contém uma ou mais pastas do conjunto de dados individual. Exemplo de um compartilhamento do arquivo de grandes dados que contém três conjuntos de dados: Earthquakes, Hurricanes e GlobalOceans.|---FileShareFolder < -- The top-level folder is what is registered as a big data file share
|---Earthquakes < -- A dataset "Earthquakes", composed of 4 csvs with the same schema
|---1960
|---01_1960.csv
|---02_1960.csv
|---1961
|---01_1961.csv
|---02_1961.csv
|---Hurricanes < -- The dataset "Hurricanes", composed of 3 shapefiles with the same schema
|---atlantic_hur.shp
|---pacific_hur.shp
|---otherhurricanes.shp
|---GlobalOceans < -- The dataset "GlobalOceans", composed of a single shapefile
|---oceans.shp
Esta mesma estrutura é aplicada nos compartilhamentos de arquivo e HDFS, embora a terminologia seja diferente. Em um compartilhamento de arquivo, há uma pasta ou diretório de nível superior e os conjuntos de dados são representados pelos subdiretórios. No HDFS, a localização de compartilhamento do arquivo é registrada e contém conjuntos de dados. A tabela seguinte esboça as diferenças:
Compartilhamento de arquivo | HDFS | |
---|---|---|
Local de compartilhamento do arquivo de grandes dados | Uma pasta ou diretório | Um caminho do HDFS |
Conjuntos de Dados | Subpastas de nível superior | Conjuntos de dados dentro de caminho do HDFS |
Após seus dados serem organizados como uma pasta com subpastas do conjunto de dados, disponibilize seus dados no seu GeoAnalytics Server seguindo as etapas em Tornar seus dados acessíveis no ArcGIS Server e registre a pasta do conjunto de dados.
Acessar o HDFS utilizando Kerberos
O GeoAnalytics Server pode acessar o HDFS utilizando a autenticação de Kerberos.
Anotação:
O GeoAnalytics Server suporta proteção RCP definida para autenticação (hadoop.rpc.protection =authentication). GeoAnalytics Server atualmente não suporta os modos de integridade (integrity) ou privacidade (privacy) .
Siga estas etapas para registrar o compartilhamento de arquivo do HDFS utilizando a autenticação de Kerberos:
- No Windows, copie o arquivo krb.ini no C:/windows/krb.ini em todas as máquinas em seu site do GeoAnalytics Server . No Linux, copie o arquivo krb.conf no /etc/krb.conf em todas as máquinas em seu site do GeoAnalytics Server .
- Entre em seu site do GeoAnalytics Server a partir do ArcGIS Server Administrator Directory.
O ArcGIS Server Administrator Directory exige que você entre como um administrador. Para conectar ao seu site federado do GeoAnalytics Server, você deve registrar utilizando um token do portal, que exige as credenciais de administrador do portal ou como o principal administrador de site do GeoAnalytics Server. Se você não for um administrador do portal ou não ter acesso às informações de conta de administrador do site primário, contacte seu administrador do portal para completar estas etapas para você.
- Vá até dados > registerItem.
- Copie o texto seguinte e cole-o na caixa de texto Item. Atualize os seguintes valores:
- <bigDataFileShareName>: Substitua com o nome que deseja para o compartilhamento de arquivo big data.
- <hdfs path>: Substitua com o caminho de sistema do arquivo completamente qualificado para o compartilhamento de arquivo big data, por exemplo, hdfs://domainname:port/folder.
- <user@realm>: Substitua com o usuário e domínio do principal.
- <keytab location>: Substitua com o local do arquivo keytab. O arquivo keytab deve estar acessível em todas as máquinas no site do GeoAnalytics Server, por exemplo, //shared/keytab/hadoop.keytab.
{ "path": "/bigDataFileShares/<bigDataFileShareName>", "type": "bigDataFileShare", "info": { "connectionString": "{\"path\":\"<hdfs path>",\"accessMode\":\"Kerberos\",\"principal\":\"user@realm\",\"keytab\":\"<keytab location>\"}", "connectionType": "hdfs" } }
- Clique em Registrar Item.
Após o item ser registrado, o compartilhamento de arquivo big data aparecerá como um armazenamento de dados no ArcGIS Server Manager com um manifesto preenchido. Se o manifesto não estiver preenchido, continue com a Etapa 5.
- Entre no seu site do GeoAnalytics Server ArcGIS Server Manager.
Você pode entrar como um publicador ou administrador.
- Vá até Site > Armazenamentos de Dados e clique no botão Regenerar Manifesto próximo a seu novo compartilhamento de arquivo big data.
Você agora tem um compartilhamento do arquivo big data e manifesto do seu HDFS, que você acessará por autenticação de Kerberos. O item de compartilhamento do arquivo big data em seu portal aponta para um serviço de catálogo do big data no GeoAnalytics Server.
Hive
Anotação:
O GeoAnalytics Server usa Spark 3.0.1. Hive deve ser da versão 2.3.7 ou 3.0.0–3.1.2.
Se você tentar e registrar um compartilhamento do arquivo de big data com Hive que não seja a versão correta, o registro de compartilhamento do arquivo de big data falhará. Se isto acontecer, reinicie a caixa de ferramentas do GeoAnalyticsManagement no ArcGIS Server Administrator Directory, > services > System > GeoAnalyticsManagement> stop. Repita as etapas para iniciar.
No Hive, todas as tabelas em um banco de dados são reconhecidas como conjunto de dados em um compartilhamento do arquivo big data. No exemplo seguinte, há uma metastore com dois bancos de dados, default e CityData. Ao registrar um compartilhamento do arquivo big data do Hive através do ArcGIS Server com seu GeoAnalytics Server, somente um banco de dados pode ser selecionado. Neste exemplo, se o banco de dados CityData foi selecionado, haverá dois conjuntos de dados no compartilhamento do arquivo big data, FireData e LandParcels.|---HiveMetastore < -- The top-level folder is what is registered as a big data file share
|---default < -- A database
|---Earthquakes
|---Hurricanes
|---GlobalOceans
|---CityData < -- A database that is registered (specified in Server Manager)
|---FireData
|---LandParcels
Armazenamentos de nuvem
Há três etapas a registrar um compartilhamento do arquivo de grandes dados do tipo de armazenamento de nuvem.
Preparar seus dados
Para preparar seus dados para um compartilhamento do arquivo de grandes dados em um armazenamento de nuvem, formate seu conjunto de dados como subpastas em uma única pasta principal.
O seguinte é um exemplo de como estruturar seus dados. Este exemplo registra a pasta principal, FileShareFolder, que contém três conjuntos de dados: Earthquakes, Hurricanes e GlobalOceans. Ao registrar uma pasta principal, todos os subdiretórios na pasta que você especificar também serão registrados com o GeoAnalytics Server. Exemplo de como estruturar dados em um armazenamento de nuvem que será utilizado como um compartilhamento do arquivo de grandes dados. Este arquivo de grandes dados contém três conjunto de dados: Earthquakes, Hurricanes e GlobalOceans.|---Cloud Store < -- The cloud store being registered
|---Container or S3 Bucket Name < -- The container (Azure) or bucket (Amazon) being registered as part of the cloud store
|---FileShareFolder < -- The parent folder that is registered as the 'folder' during cloud store registration
|---Earthquakes < -- The dataset "Earthquakes", composed of 4 csvs with the same schema
|---1960
|---01_1960.csv
|---02_1960.csv
|---1961
|---01_1961.csv
|---02_1961.csv
|---Hurricanes < -- The dataset "Hurricanes", composed of 3 shapefiles with the same schema
|---atlantic_hur.shp
|---pacific_hur.shp
|---otherhurricanes.shp
|---GlobalOceans < -- The dataset "GlobalOceans", composed of 1 shapefile
|---oceans.shp
Registre o armazenamento de nuvem com seu GeoAnalytics Server
Conecte no seu site do GeoAnalytics Server a partir do ArcGIS Server Manager para registrar um armazenamento de nuvem. Quando você registra um armazenamento de nuvem, você deve incluir um nome de contêiner do Azure, um nome de recipiente do Amazon S3 ou um nome de conta do Azure Data Lake Store. É adicionalmente recomendado especificar a pasta dentro do contêiner. A pasta especificada é composta de subpastas e cada uma representa um conjunto de dados individual. Cada conjunto de dados é composto de todo o conteúdo da subpasta.
Registrar o armazenamento de nuvem como um compartilhamento do arquivo de grandes dados
Siga estas etapas para registrar o armazenamento de nuvem que você criou na seção anterior como um compartilhamento de arquivo big data:
- Entre no seu site do GeoAnalytics Server do ArcGIS Server Manager.
Você pode entrar como um publicador ou administrador.
- Vá até Site > Armazenamento de Dados e escolha Compartilhamento do Arquivo de Grandes Dados da lista suspensa Registrar.
- Forneça as informações seguintes na caixa de diálogo Registrar Compatilhamento do Arquivo de Grandes Dados:
- Digite um nome para os compartilhamento do arquivo de grandes dados.
- Escolha Armazenamento de Nuvem a partir da lista suspensa Tipo.
- Escolha o nome do seu armazenamento de nuvem a partir da lista suspensa Armazenamento de Nuvem.
- Clique em Criar para registrar seu armazenamento de nuvem como um compartilhamento do arquivo de grandes dados.
Você agora tem um compartilhamento do arquivo de grandes dados e manifesto do seu armazenamento de nuvem. O item de compartilhamento do arquivo big data em seu portal aponta para um serviço de catálogo do big data no GeoAnalytics Server.
Registrar seu compartilhamento do arquivo de grandes dados
Para registrar um compartilhamento de arquivo, o armazenamento de nuvem do HDFS ou Hive como um compartilhamento do arquivo big data, conecta ao seu site do GeoAnalytics Server através do ArcGIS Server Manager. Consulte Registrar seus dados com ArcGIS Server usando Manager na ajuda do ArcGIS Server para detalhes sobre as etapas necessárias.
Dica:
As etapas para registrar um armazenamento de nuvem como um compartilhamento do arquivo de grandes dados foram cobertas na seção anterior.
Quando um compartilhamento do arquivo de grandes dados é registrado, um manifesto é gerado que esboça o formato dos conjuntos de dados dentro do local de compartilhamento, incluindo os campos representando a geometria e o tempo. Se você optar por registrar seu compartilhamento do arquivo de grandes dados como um local de saída, um manifesto do modelo de saída também será gerado. Um item de compartilhamento do arquivo big data é criado em seu portal que aponta para um serviço de catálogo do big data no GeoAnalytics Server onde você registrou os dados. Para aprender mais sobre serviços do catálogo de grandes dados, consulte a documentação Serviço do Catálogo de Grandes Dados na ajuda do ArcGIS Services REST API.
Modificar um compartilhamento do arquivo de grandes dados
Quando um serviço de catálogo do big data é criado, um manifesto para os dados de entrada é gerado automaticamente e carregado no site do GeoAnalytics Server onde você registrou os dados. O processo de gerar um manifesto nem sempre pode estimar os campos representando a geometria e o tempo corretamente e você pode precisar aplicar edições. Para editar um manifesto, siga as etapas em Editar manifestos de compartilhamento do arquivo de grandes dados no Manager. Para saber mais sobre manifestos de compartilhamento do arquivo big data, consulte Entendendo um manifesto de compartilhamento do arquivo big data na ajuda do ArcGIS Server.
Modificar os modelos de saída para um compartilhamento do arquivo de grandes dados
Quando você escolhe utilizar o compartilhamento do arquivo de grandes dados como um local de saída, os modelos de saída são gerados automaticamente. Estes modelos descrevem a formatação dos resultados da análise de saída, como o tipo de arquivo e como o tempo e a geometria serão registrados. Se você deseja modificar a geometria ou a formatação de hora, ou adicionar ou excluir modelos, poderá modificar os modelos. Para editar os modelos de saída, siga as etapas em Editar manifestos de compartilhamento do arquivo de grandes dados no Manager. Para aprender mais sobre modelos de saída, consulte Modelos de saída em um compartilhamentos do arquivo de grandes dados.
Executar a análise em um compartilhamento do arquivo de grandes dados
Você pode executar a análise em um conjunto de dados em um compartilhamento de arquivo big data por quaisquer clientes que suportem GeoAnalytics Server, que inclui o seguinte:
- ArcGIS Pro
- Map Viewer
- ArcGIS REST API
- ArcGIS API for Python
Para executar sua análise em um compartilhamento de arquivo big data através do ArcGIS Pro ou Map Viewer, selecione a GeoAnalytics Tools que deseja utilizar. Para a entrada da ferramenta, navegue até onde seus dados estão localizados no Portal no ArcGIS Pro ou na caixa de diálogo Procurar Camadas no Map Viewer. Os dados estarão em Meu Conteúdo se você mesmo registrou os dados. Caso contrário, procure em seus Grupos ou Portal Inteiro. Note que uma camada de compartilhamento do arquivo de grandes dados selecionada para análise não será exibida no mapa.
Anotação:
Certifique-se de estar registrado em uma conta do portal com acesso ao compartilhamento do arquivo de grandes dados registrado. Você pode procurar seu portal com o termo bigDataFileShare* para localizar rapidamente todos os compartilhamentos do arquivo de grandes dados que você pode acessar.
Para executar a análise em um compartilhamento do arquivo de grandes dados através da API ArcGIS REST, utilize a URL de serviço do catálogo de grandes dados como a entrada. Isto estará no formato {"url":" https://webadaptorhost.domain.com/webadaptorname/rest/DataStoreCatalogs/bigDataFileShares_filesharename/BigDataCatalogServer/dataset"}. Por exemplo, com uma máquina denominada example, um domínio denominado esri, um Web Adaptor denominado server, um compartilhamento do arquivo big data denominado MyData, e um conjunto de dados denominado Earthquakes, a URL seria: {"url":" https://example.esri.com/server/rest/DataStoreCatalogs/bigDataFileShares_MyData/BigDataCatalogServer/Earthquakes"}. Para aprender mais sobre a entrada para análise de grandes dados através do REST, consulte o tópico Entrada de Feição na documentação do ArcGIS Services REST API.
Salvar resultados em um compartilhamento do arquivo de grandes dados
Você pode executar a análise em um conjunto de dados (compartilhamento do arquivo de grandes dados ou outra entrada) e salvar os resultados em um compartilhamento do arquivo de grandes dados. Quando você salva os resultados em um compartilhamento do arquivo de grandes dados, voce não consegue visualizá-los. Você pode fazer isto através dos seguintes clientes:
- Map Viewer
- ArcGIS REST API
- ArcGIS API for Python
Quando você grava resultados em um compartilhamento do arquivo de grandes dados, o manifesto de entrada é atualizado para incluir o conjunto de dados que você acabou de salvar. Os resultados que você gravou no compartilhamento do arquivo de grandes dados agora estão disponíveis como uma entrada para outra execução da ferramenta.