Skip To Content

Iniciar com compartilhamentos do arquivo de grandes dados

Anotação:

Na versão 10.9.1 ou superior, você pode registrar um compartilhamento de arquivo do big data por meio da página de conteúdo do portal. Esta é a maneira recomendada de registrar seus compartilhamentos de arquivos do big data. Use Server Manager para registrar e editar se:

  • Você deseja registrar um Azure Data Lake
  • Seu compartilhamento de arquivo do big data foi criado antes da versão 10.9.1 e você não o substituiu por um compartilhamento de arquivo do big data no portal.

Um compartilhamento do arquivo big data é um item criado em seu portal que faz referência a um local disponível no seu ArcGIS GeoAnalytics Server. Você pode usar o local do compartilhamento de arquivo do big data como entrada e saída para dados de feição (dados de pontos, polilinhas, polígonos e tabulares) de ferramentas do GeoAnalytics. Quando você cria um compartilhamento de arquivo do big data por meio da página de conteúdo do portal, pelo menos dois itens são criados em seu portal:

  • Um item do Data Store (compartilhamento de arquivo do big data)
  • Um item do Compartilhamento de Arquivo do Big Data
  • Um item do Data Store (Arazenamento na Nuvem), se você estiver registrando um armazenamento na nuvem para um compartilhamento de arquivos do big data
O item do compartilhamento de arquivo do big data aponta para um serviço do catálogo de grandes dados, que descreve os conjuntos de dados no compartilhamento de arquivo do big data e seus esquemas, incluindo informações de geometria e tempo, e os formatos de saída, denominados de modelos, que você registrou. Ao utilizar um compartilhamento de arquivo do big data para a entrada em uma ferramenta do ArcGIS GeoAnalytics Server, é possível procurar o item do compartilhamento de arquivo do big data para executar a análise em um conjunto de dados.

Sobre compartilhamentos do arquivo de grandes dados

Há vários benefícios em utilizar um compartilhamento de arquivo do big data:

  • Você pode manter seus dados em um local acessível até que você esteja pronto para executar a análise. Um compartilhamento do arquivo de grandes dados acessa os dados quando a análise é executada, portanto, você pode continuar adicionando dados em um conjunto de dados existente em seu compartilhamento do arquivos de grandes dados sem ter que registrar novamente ou publicar seus dados.
  • Você também pode modificar o manifesto para remover, adicionar ou atualizar conjunto de dados no compartilhamento do arquivo de grandes dados.
  • Os compartilhamentos do arquivo de grandes dados são extremamente flexíveis sobre como o tempo e a geometria podem ser definidos e permite múltiplos formatos de tempo em um único conjunto de dados.
  • Os compartilhamentos do arquivo de grandes dados também permitem a você particionar seus conjuntos de dados, enquanto ainda tratar múltiplas partições como um único conjunto de dados.
  • O uso de compartilhamentos do arquivo de grandes dados para dados de saída permite a você armazenar seus resultados em formatos que você pode utilizar para outros fluxos de trabalho, como um arquivo de parquet para análise posterior ou armazenamento.

Anotação:

Os compartilhamentos do arquivos big data são somente acessados ao executar o GeoAnalytics Tools. Isto significa que você pode somente procurar e adicionar arquivos de grandes dados na sua análise; você não pode visualizar os dados em um mapa.

Os compartilhamentos do arquivo de grandes dados podem referenciar as seguintes fontes de dados de entrada:

  • Compartilhamento de arquivo—Um diretório de conjunto de dados em um disco local ou rede de compartilhamento.
  • Apache Hadoop Distributed File System (HDFS)—Um diretório de conjuntos de dados do HDFS .
  • Apache Hive—Bancos de dados de metastore do Hive.
  • Armazenamento na nuvem—Um contêiner do Amazon Simple Storage Service (S3), contêiner do Microsoft Azure Blob ou armazenamento do Microsoft Azure Data Lake (Server Manager somente) contendo um diretório de conjuntos de dados.

Ao gravar resultados em um compartilhamento de arquivo do big data, é possível utilizar a seguinte de saída das GeoAnalytics Tools:

  • Compartilhamento de arquivo
  • HDFS
  • Armazenamento de nuvem

Os seguintes tipos de arquivos são suportados como conjuntos de dados para entrada e saída em compartilhamentos do arquivo de grandes dados:

  • Arquivos delimitados (como .csv, .tsv e .txt)
  • Shapefiles (.shp)
  • Arquivos Parquet (.parquet)
  • Anotação:

    Apenas arquivos parquet não criptografados são suportados.

    Arquivos ORC (.orc)

Anotação:

Um compartilhamento de arquivo do big data estará somente disponível se o administrador do portal habilitou o GeoAnalytics Server. Para saber mais sobre habilitar o GeoAnalytics Server, consulte Instalar o ArcGIS GeoAnalytics Server.

Os compartilhamentos do arquivo big data é uma das diversas maneiras que as GeoAnalytics Tools podem acessar seus dados e não são um requisito para GeoAnalytics Tools. Consulte Usar as GeoAnalytics Tools noMap Viewer Classic para uma lista de possíveis entradas de dados do GeoAnalytics Tools como saídas.

Você pode registrar quantos compartilhamentos do arquivo de grandes dados você precisar. Cada compartilhamento do arquivo de grandes dados pode ter quantos conjuntos de dados você desejar.

A tabela abaixo descreve alguns termos importantes ao falar sobre compartilhamentos do arquivo de grandes dados.

TermoDescrição

Compartilhamento do arquivo de grandes dados

Um local registrado com seu GeoAnalytics Server para ser utilizado como entrada, saída do conjunto de dados ou ambas a entrada e saída para ferramentas do GeoAnalytics Tools.

Serviço de catálogo do Big Data

Um serviço que descreve os conjuntos de dados e esquemas de entrada e os nomes dos modelos de saída do compartilhamento do arquivos de grandes dados. Isto é criado quando seu compartilhamento do arquivo de grandes dados é registrado e seu manifesto é criado.

Para aprender mais sobre serviços do catálogo do big data, consulte a documentação Serviço de Catálogo do Big Data na ajuda do ArcGIS Services REST API.

Item de compartilhamento do arquivo de grandes dados

Um item no seu portal que faz referência ao serviço de catálogo do Big Data. Você pode controlar quem pode utilizar seu compartilhamento do arquivo de grandes dados como entrada para GeoAnalytics compartilhando este item no portal.

Manifesto

Um arquivo JSON que descreve os conjuntos de dados disponíveis e o esquema para entradas em seu compartilhamento do arquivo de grandes dados. O manifesto é gerado automaticamente quando você registra um compartilhamento do arquivo de grandes dados e pode ser modificado ao editar ou utilizar um arquivo de dicas. Um único compartilhamento do arquivo de grandes dados tem um manifesto.

Modelos de saída

Um ou mais modelos que descrevem o tipo de arquivo e a formatação opcional ao gravar os resultados em um compartilhamento do arquivo de grandes dados. Por exemplo, um modelo pode especificar que os resultados sejam gravados em um shapefile. Um compartilhamento do arquivo de grandes dados pode ter nenhum, um ou mais modelos de saída.

Tipo de compartilhamento do arquivo de grandes dados

O tipo de locais que você está registrando. Por exemplo, você pode ter um compartilhamento do arquivo de grandes dados ou digitar HDFS.

Formato do conjunto de dados do compartilhamento de arquivo do big data

O formato dos dados que você está lendo ou gravando. Por exemplo, o tipo do arquivo pode ser shapefile.

Arquivo de sugestões

Um arquivo opcional que pode ser utilizado para auxiliar na geração de um manifesto para arquivos delimitados utilizados como uma entrada.

Preparar seus dados para serem registrados como um compartilhamento do arquivo de grandes dados

Para utilizar seus conjuntos de dados como entradas em um compartilhamento do arquivo de grandes dados, você precisa verificar se os dados estão formatados corretamente. Veja abaixo a formatação baseada no tipo de compartilhamento do arquivo de grandes dados.

Compartilhamentos de arquivo e HDFS

Para preparar seus dados para um compartilhamento do arquivo de grandes dados, você precisa formatar seus conjuntos de dados como subpastas em uma única pasta principal que será registrada. Nesta pasta principal que você registrar, os nomes das subpastas representarão os nomes do conjunto de dados. Se as suas subpastas tiverem múltiplas pastas ou arquivos, todo o conteúdo do nível superior das subpastas serão lidos como um único conjunto de dados e deverão compartilhar o mesmo esquema. O seguinte é um exemplo de como registrar a pasta FileShareFolder que contém três conjuntos de dados, denominados Earthquakes, Hurricanes e GlobalOceans. Ao registrar uma pasta principal, todos os subdiretórios na pasta que você especificar também serão registrados com o GeoAnalytics Server. Sempre registre a pasta principal (por exemplo, \\machinename\FileShareFolder) que contém uma ou mais pastas do conjunto de dados individual.

Exemplo de um compartilhamento do arquivo de grandes dados que contém três conjuntos de dados: Earthquakes, Hurricanes e GlobalOceans.

|---FileShareFolder                 < -- The top-level folder is what is registered as a big data file share
   |---Earthquakes                  < -- A dataset "Earthquakes", composed of 4 csvs with the same schema
      |---1960
         |---01_1960.csv
         |---02_1960.csv
      |---1961
         |---01_1961.csv
         |---02_1961.csv
   |---Hurricanes                   < -- The dataset "Hurricanes", composed of 3 shapefiles with the same schema
      |---atlantic_hur.shp
      |---pacific_hur.shp
      |---otherhurricanes.shp
   |---GlobalOceans                 < -- The dataset "GlobalOceans", composed of a single shapefile
      |---oceans.shp

Esta mesma estrutura é aplicada nos compartilhamentos de arquivo e HDFS, embora a terminologia seja diferente. Em um compartilhamento de arquivo, há uma pasta ou diretório de nível superior e os conjuntos de dados são representados pelos subdiretórios. No HDFS, a localização de compartilhamento do arquivo é registrada e contém conjuntos de dados. A tabela seguinte esboça as diferenças:

Compartilhamento de arquivoHDFS

Local de compartilhamento do arquivo de grandes dados

Uma pasta ou diretório

Um caminho do HDFS

Conjuntos de Dados

Subpastas de nível superior

Conjuntos de dados dentro de caminho do HDFS

Após seus dados serem organizados como uma pasta com subpastas do conjunto de dados, disponibilize seus dados no seu GeoAnalytics Server seguindo as etapas em Tornar seus dados acessíveis no ArcGIS Server e registre a pasta do conjunto de dados.

Acessar o HDFS utilizando Kerberos

O GeoAnalytics Server pode acessar o HDFS utilizando a autenticação de Kerberos.

Siga estas etapas para registrar o compartilhamento de arquivo do HDFS utilizando a autenticação de Kerberos:

  1. No Windows, copie o arquivo krb.ini no C:/windows/krb.ini em todas as máquinas em seu site do GeoAnalytics Server. No Linux, copie o arquivo krb.conf no /etc/krb.conf em todas as máquinas em seu site do GeoAnalytics Server .
  2. Entre em seu site do GeoAnalytics Server a partir do ArcGIS Server Administrator Directory.

    O ArcGIS Server Administrator Directory exige que você entre como um administrador. Para conectar ao seu site federado do GeoAnalytics Server, você deve registrar utilizando um token do portal, que exige as credenciais de administrador do portal ou como o principal administrador de site do GeoAnalytics Server. Se você não for um administrador do portal ou não ter acesso às informações de conta de administrador do site primário, contacte seu administrador do portal para completar estas etapas para você.

  3. Vá até dados > registerItem.
  4. Copie o texto seguinte e cole-o na caixa de texto Item. Atualize os seguintes valores:

    • <bigDataFileShareName>—Substitua com o nome que deseja para o compartilhamento de arquivo do big data.
    • <hdfs path>—Substitua com o caminho de sistema do arquivo completamente qualificado para o compartilhamento de arquivo do big data, por exemplo, hdfs://domainname:port/folder.
    • <user@realm>—Substitua com o usuário e domínio do principal.
    • <keytab location>—Substitua com o local do arquivo keytab. O arquivo keytab deve estar acessível em todas as máquinas no site do GeoAnalytics Server, por exemplo, //shared/keytab/hadoop.keytab.

    {
       "path": "/bigDataFileShares/<bigDataFileShareName>",
       "type": "bigDataFileShare",
       "info": 
             {
              "connectionString": "{\"path\":\"<hdfs path>",\"accessMode\":\"Kerberos\",\"principal\":\"user@realm\",\"keytab\":\"<keytab location>\"}",
              "connectionType": "hdfs"
             }
    }
      
    

  5. Clique em Registrar Item.

    Após o item ser registrado, o compartilhamento de arquivo big data aparecerá como um armazenamento de dados no ArcGIS Server Manager com um manifesto preenchido. Se o manifesto não estiver preenchido, continue com a Etapa 6.

  6. Entre no seu site do GeoAnalytics Server ArcGIS Server Manager.

    Você pode entrar como um publicador ou administrador.

  7. Vá até Site > Armazenamentos de Dados e clique no botão Regenerar Manifesto próximo a seu novo compartilhamento de arquivo big data.

Você agora tem um compartilhamento do arquivo big data e manifesto do seu HDFS, que você acessará por autenticação de Kerberos. O item de compartilhamento do arquivo big data em seu portal aponta para um serviço de catálogo do big data no GeoAnalytics Server.

Hive

Anotação:

O GeoAnalytics Server usa Spark 3.0.1. Hive deve ser da versão 2.3.7 ou 3.0.0–3.1.2.

Se você tentar e registrar um compartilhamento do arquivo de big data com Hive que não seja a versão correta, o registro de compartilhamento do arquivo de big data falhará. Se isto acontecer, reinicie a caixa de ferramentas do GeoAnalyticsManagement no ArcGIS Server Administrator Directory, > services > System > GeoAnalyticsManagement> stop. Repita as etapas para iniciar.

No Hive, todas as tabelas em um banco de dados são reconhecidas como conjunto de dados em um compartilhamento do arquivo big data. No exemplo seguinte, há uma metastore com dois bancos de dados, default e CityData. Ao registrar um compartilhamento do arquivo big data do Hive através do ArcGIS Server com seu GeoAnalytics Server, somente um banco de dados pode ser selecionado. Neste exemplo, se o banco de dados CityData foi selecionado, haverá dois conjuntos de dados no compartilhamento do arquivo big data, FireData e LandParcels.

|---HiveMetastore                 < -- The top-level folder is what is registered as a big data file share
   |---default                    < -- A database
      |---Earthquakes
      |---Hurricanes
      |---GlobalOceans
   |---CityData				               < -- A database that is registered (specified in Server Manager)
      |---FireData
      |---LandParcels

Armazenamentos de nuvem

Há três etapas a registrar um compartilhamento do arquivo de grandes dados do tipo de armazenamento de nuvem.

  1. Prepare seus dados em seu armazenamento de nuvem no formato correto.
  2. Registre o armazenamento de nuvem em seu GeoAnalytics Server.
  3. Registre o armazenamento de nuvem como um compartilhamento de arquivo do big data em seu GeoAnalytics Server.

Preparar seus dados

Para preparar seus dados para um compartilhamento de arquivo do big data em um armazenamento de nuvem, formate seu conjunto de dados como subpastas em uma única pasta principal.

O seguinte é um exemplo de como estruturar seus dados. Este exemplo registra a pasta principal, FileShareFolder, que contém três conjuntos de dados: Earthquakes, Hurricanes e GlobalOceans. Ao registrar uma pasta principal, todos os subdiretórios na pasta que você especificar também serão registrados com o GeoAnalytics Server.

Exemplo de como estruturar dados em um armazenamento de nuvem que será utilizado como um compartilhamento de arquivo do big data. Este arquivo de grandes dados contém três conjunto de dados: Earthquakes, Hurricanes e GlobalOceans.

|---Cloud Store                          < -- The cloud store being registered
   |---Container or S3 Bucket Name       < -- The container (Azure) or bucket (Amazon) being registered as part of the cloud store
      |---FileShareFolder                < -- The parent folder that is registered as the 'folder' during cloud store registration
         |---Earthquakes                 < -- The dataset "Earthquakes", composed of 4 csvs with the same schema
            |---1960
               |---01_1960.csv
               |---02_1960.csv
            |---1961
               |---01_1961.csv
               |---02_1961.csv
         |---Hurricanes                  < -- The dataset "Hurricanes", composed of 3 shapefiles with the same schema
            |---atlantic_hur.shp
            |---pacific_hur.shp
            |---otherhurricanes.shp
         |---GlobalOceans                < -- The dataset "GlobalOceans", composed of 1 shapefile
            |---oceans.shp

Registre o armazenamento de nuvem com seu GeoAnalytics Server

Conecte no seu site do GeoAnalytics Server a partir do ArcGIS Server Manager para registrar um armazenamento de nuvem. Quando você registra um armazenamento de nuvem, você deve incluir um nome de contêiner do Azure, um nome de recipiente do Amazon S3 ou um nome de conta do Azure Data Lake Store. É adicionalmente recomendado especificar uma pasta dentro do contêiner. A pasta especificada é composta de subpastas e cada uma representa um conjunto de dados individual. Cada conjunto de dados é composto de todo o conteúdo da subpasta.

Registrar o armazenamento de nuvem como um compartilhamento de arquivo do big data

Siga estas etapas para registrar o armazenamento de nuvem que você criou na seção anterior como um compartilhamento de arquivo big data:

  1. Entre no seu site do GeoAnalytics Server do ArcGIS Server Manager.

    Você pode entrar como um publicador ou administrador.

  2. Vá até Site > Armazenamento de Dados e escolha Compartilhamento de Arquivo do Big Data da lista suspensa Registrar.
  3. Forneça as informações seguintes na caixa de diálogo Registrar Compatilhamento de Arquivo do Big Data:
    1. Digite um nome para os compartilhamento de arquivo do big data.
    2. Escolha Armazenamento de Nuvem a partir da lista suspensa Tipo.
    3. Escolha o nome do seu armazenamento de nuvem a partir da lista suspensa Armazenamento de Nuvem.
    4. Clique em Criar para registrar seu armazenamento de nuvem como um compartilhamento de arquivo do big data.

Você agora tem um compartilhamento do arquivo de grandes dados e manifesto do seu armazenamento de nuvem. O item de compartilhamento do arquivo big data em seu portal aponta para um serviço de catálogo do big data no GeoAnalytics Server.

Registrar seu compartilhamento do arquivo de grandes dados

Para registrar um compartilhamento de arquivo, o armazenamento de nuvem do HDFS ou Hive como um compartilhamento do arquivo big data, conecta ao seu site do GeoAnalytics Server através do ArcGIS Server Manager. Consulte Registrar seus dados com ArcGIS Server usando Manager na ajuda do ArcGIS Server para detalhes sobre as etapas necessárias.

Dica:

As etapas para registrar um armazenamento de nuvem como um compartilhamento de arquivo do big data foram cobertas na seção anterior.

Quando um compartilhamento de arquivo do big data é registrado, um manifesto é gerado que esboça o formato dos conjuntos de dados dentro do local de compartilhamento, incluindo os campos representando a geometria e o tempo. Se você optar por registrar seu compartilhamento de arquivo do big data como um local de saída, um manifesto do modelo de saída também será gerado. Um item de compartilhamento do arquivo big data é criado em seu portal que aponta para um serviço de catálogo do big data no GeoAnalytics Server onde você registrou os dados. Para aprender mais sobre serviços do catálogo do big data, consulte a documentação Serviço de Catálogo do Big Data na ajuda do ArcGIS Services REST API.

Modificar um compartilhamento de arquivo do big data

Quando um serviço de catálogo do big data é criado, um manifesto para os dados de entrada é gerado automaticamente e carregado no site do GeoAnalytics Server onde você registrou os dados. O processo de gerar um manifesto nem sempre pode estimar os campos representando a geometria e o tempo corretamente e você pode precisar aplicar edições. Para editar um manifesto, siga as etapas em Editar manifestos do compartilhamento de arquivo do big data no Server Manager. Para saber mais sobre manifestos de compartilhamento do arquivo big data, consulte Entendendo um manifesto de compartilhamento do arquivo big data na ajuda do ArcGIS Server.

Modificar os modelos de saída para um compartilhamento de arquivo do big data

Quando você escolhe utilizar o compartilhamento de arquivo do big data como um local de saída, os modelos de saída são gerados automaticamente. Estes modelos descrevem a formatação dos resultados da análise de saída, como o tipo de arquivo e como o tempo e a geometria serão registrados. Se você deseja modificar a geometria ou a formatação de hora, ou adicionar ou excluir modelos, poderá modificar os modelos. Para editar os modelos de saída, siga as etapas em Editar manifestos do compartilhamento de arquivo do big data no Server Manager. Para aprender mais sobre modelos de saída, consulte Modelos de saída em um compartilhamentos de arquivo do big data.

Executar a análise em um compartilhamento de arquivo do big data

Você pode executar a análise em um conjunto de dados em um compartilhamento de arquivo big data por quaisquer clientes que suportem GeoAnalytics Server, que inclui o seguinte:

  • ArcGIS Pro
  • Map Viewer Classic
  • ArcGIS REST API
  • ArcGIS API for Python

Para executar sua análise em um compartilhamento de arquivo big data através do ArcGIS Pro ou Map Viewer Classic, selecione a GeoAnalytics Tools que deseja utilizar. Para a entrada da ferramenta, navegue até onde seus dados estão localizados no Portal no ArcGIS Pro ou na caixa de diálogo Procurar Camadas no Map Viewer Classic. Os dados estarão em Meu Conteúdo se você mesmo registrou os dados. Caso contrário, procure em Grupos ou Portal Inteiro. Note que uma camada do compartilhamento de arquivo do big data selecionada para análise não será exibida no mapa.

Anotação:

Certifique-se de estar registrado em uma conta do portal com acesso ao compartilhamento de arquivo do big data registrado. Você pode procurar seu portal com o termo bigDataFileShare* para localizar rapidamente todos os compartilhamentos de arquivo do big data que você pode acessar.

Para executar a análise em um compartilhamento de arquivo do big data através do ArcGIS REST API, utilize a URL de serviço do catálogo do big data como a entrada. Isto estará no formato {"url":" https://webadaptorhost.domain.com/webadaptorname/rest/DataStoreCatalogs/bigDataFileShares_filesharename/BigDataCatalogServer/dataset"}. Por exemplo, com uma máquina denominada example, um domínio denominado esri, um web adaptor denominado server, um compartilhamento de arquivo do big data denominado MyData e um conjunto de dados denominado Earthquakes, a URL será: {"url":" https://example.esri.com/server/rest/DataStoreCatalogs/bigDataFileShares_MyData/BigDataCatalogServer/Earthquakes"}. Para aprender mais sobre a entrada para análise de grandes dados através do REST, consulte o tópico Entrada de Feição na documentação do ArcGIS Services REST API.

Salvar resultados em um compartilhamento do arquivo de grandes dados

Você pode executar a análise em um conjunto de dados (compartilhamento do arquivo de grandes dados ou outra entrada) e salvar os resultados em um compartilhamento do arquivo de grandes dados. Quando você salva os resultados em um compartilhamento de arquivo do big data, não é possível visualizá-los. Você pode fazer isto através dos seguintes clientes:

  • Map Viewer Classic
  • ArcGIS REST API
  • ArcGIS API for Python

Quando você grava resultados em um compartilhamento de arquivo do big data, o manifesto de entrada é atualizado para incluir o conjunto de dados que você acabou de salvar. Os resultados que você gravou no compartilhamento de arquivo do big data agora estão disponíveis como uma entrada para outra execução da ferramenta.