Skip To Content

Iniciar com compartilhamentos do arquivo de grandes dados

Sobre compartilhamentos do arquivo de grandes dados

Um compartilhamento do arquivo de grandes dados é um item criado em seu portal que faz referência a um local disponível no seu ArcGIS GeoAnalytics Server. O local de compartilhamento do arquivo de grandes dados pode ser utilizado como entrada e saída para dados de feição (dados de pontos, polilinhas, polígonos e tabulares) de ferramentas do GeoAnalytics. Quando você cria um compartilhamento do arquivo de grandes dados, um item é criado no seu portal. O item aponta para um serviço do catálogo de grandes dados, que descreve os conjuntos de dados no compartilhamento do arquivo de grandes dados e seus esquemas, incluindo informações de geometria e tempo, e os formatos de saída, denominados de modelos, que você registrou. Ao utilizar um compartilhamento do arquivo de grandes dados para a entrada em uma ferramenta do ArcGIS GeoAnalytics Server , é possível procurar o item para executar a análise em um conjunto de dados.

Há vários benefícios em utilizar um compartilhamento do arquivo de grandes dados. Você pode manter seus dados em um local acessível até que você esteja pronto para executar a análise. Um compartilhamento do arquivo de grandes dados acessa os dados quando a análise é executada, portanto, você pode continuar adicionando dados em um conjunto de dados existente em seu compartilhamento do arquivos de grandes dados sem ter que registrar novamente ou publicar seus dados. Você também pode modificar o manifesto para remover, adicionar ou atualizar conjunto de dados no compartilhamento do arquivo de grandes dados. Os compartilhamentos do arquivo de grandes dados são extremamente flexíveis em como o tempo e a geometria podem ser definidos e permite múltiplos formatos de tempo em um único conjunto de dados. Os compartilhamentos do arquivo de grandes dados também permitem a você particionar seus conjuntos de dados, enquanto ainda tratar múltiplas partições como um único conjunto de dados. O uso de compartilhamentos do arquivo de grandes dados para dados de saída permite a você armazenar seus resultados em formatos que você pode utilizar para outros fluxos de trabalho, como um arquivo de parquet para análise posterior ou armazenamento.

Anotação:

Os compartilhamentos do arquivos de grandes dados são somente acessados ao executar o Ferramentas de GeoAnalytics. Isto significa que você pode somente procurar e adicionar arquivos de grandes dados na sua análise; você não pode visualizar os dados em um mapa.

Os compartilhamentos do arquivo de grandes dados podem referenciar as seguintes fontes de dados de entrada:

  • Compartilhamento de arquivo—Um diretório de conjunto de dados em um disco local ou rede de compartilhamento.
  • Apache Hadoop Distributed File System (HDFS)—Um diretório dos dos conjuntos de dados do HDFS.
  • Apache Hive—Bancos de dados de metastore do Hive.
  • Armazenamento na nuvem—Um recipiente do Amazon Simple Storage Service (S3), contêiner de blob do Microsoft Azure ou armazenamento do Microsoft Azure Data Lake contendo um diretório dos conjuntos de dados.

Ao gravar resultados em um compartilhamento do arquivo de grandes dados, é possível utilizar a seguinte Ferramentas de GeoAnalytics de saída:

  • Compartilhamento de arquivo
  • HDFS
  • Armazenamento de nuvem

Anotação:

Os contêiners de blob da Microsoft Azure não são suportados como uma opção de saída.

Os seguintes tipos de arquivos são suportados como conjuntos de dados para entrada e saída em compartilhamentos do arquivo de grandes dados:

  • Arquivos delimitados (como .csv, .tsv e .txt)
  • Shapefiles (.shp)
  • Arquivos Parquet (.gz.parquet)
  • Arquivos ORC (orc.crc)

Anotação:

Um compartilhamento do arquivo de grandes dados está somente disponível para utilizar se o administrador do portal habilitou o GeoAnalytics Server. Para aprender mais sobre habilitar o GeoAnalytics Server, consulte Configurar o ArcGIS GeoAnalytics Server.

Os compartilhamentos do arquivo de grandes dados é uma das diversas maneiras que as Ferramentas de GeoAnalytics podem acessar seus dados e não são um requisito para Ferramentas de GeoAnalytics. Consulte Utilizar as Ferramentas de GeoAnalytics no Map Viewer para uma lista de possíveis dados de entrada e saída das Ferramentas de GeoAnalytics .

Você pode registrar quantos compartilhamentos do arquivo de grandes dados você precisar. Cada compartilhamento do arquivo de grandes dados pode ter quantos conjuntos de dados você desejar.

A tabela abaixo descreve alguns termos importantes ao falar sobre compartilhamentos do arquivo de grandes dados.

TermoDescrição

Compartilhamento do arquivo de grandes dados

Um local registrado com seu GeoAnalytics Server para ser utilizado como entrada, saída do conjunto de dados ou ambas a entrada e saída para ferramentas do GeoAnalytics.

Serviço de catálogo do Big Data

Um serviço que descreve os conjuntos de dados e esquemas de entrada e os nomes dos modelos de saída do compartilhamento do arquivos de grandes dados. Isto é criado quando seu compartilhamento do arquivo de grandes dados é registrado e seu manifesto é criado.

Para aprender mais sobre serviços do catálogo de grandes dados, consulte a documentação Serviço do Catálogo de Grandes Dados na ajuda do ArcGIS Services REST API.

Item de compartilhamento do arquivo de grandes dados

Um item no seu portal que faz referência ao serviço de catálogo do Big Data. Você pode controlar quem pode utilizar seu compartilhamento do arquivo de grandes dados como entrada para GeoAnalytics compartilhando este item no portal.

Manifesto

Um arquivo JSON que descreve os conjuntos de dados disponíveis e o esquema para entradas em seu compartilhamento do arquivo de grandes dados. O manifesto é gerado automaticamente quando você registra um compartilhamento do arquivo de grandes dados e pode ser modificado ao editar ou utilizar um arquivo de dicas. Um único compartilhamento do arquivo de grandes dados tem um manifesto.

Modelos de saída

Um ou mais modelos que descrevem o tipo de arquivo e a formatação opcional ao gravar os resultados em um compartilhamento do arquivo de grandes dados. Por exemplo, um modelo pode especificar que os resultados sejam gravados em um shapefile. Um compartilhamento do arquivo de grandes dados pode ter nenhum, um ou mais modelos de saída.

Tipo de compartilhamento do arquivo de grandes dados

O tipo de locais que você está registrando. Por exemplo, você pode ter um compartilhamento do arquivo de grandes dados ou digitar HDFS.

Formato do conjunto de dados de compartilhamento do arquivo de grandes dados

O formato dos dados que você está lendo ou gravando. Por exemplo, o tipo do arquivo pode ser shapefile.

Arquivo de sugestões

Um arquivo opcional que pode ser utilizado para auxiliar na geração de um manifesto para arquivos delimitados utilizados como uma entrada.

Preparar seus dados para serem registrados como um compartilhamento do arquivo de grandes dados

Para utilizar seus conjuntos de dados como entradas em um compartilhamento do arquivo de grandes dados, você precisa verificar se os dados estão formatados corretamente. Veja abaixo a formatação baseada no tipo de compartilhamento do arquivo de grandes dados.

Compartilhamentos de arquivo e HDFS

Para preparar seus dados para um compartilhamento do arquivo de grandes dados, você precisa formatar seus conjuntos de dados como subpastas em uma única pasta principal que será registrada. Nesta pasta principal que você registrar, os nomes das subpastas representarão os nomes do conjunto de dados. Se as suas subpastas tiverem múltiplas pastas ou arquivos, todo o conteúdo do nível superior das subpastas serão lidos como um único conjunto de dados e deverão compartilhar o mesmo esquema. O seguinte é um exemplo de como registrar a pasta FileShareFolder que contém três conjuntos de dados, denominados Earthquakes, Hurricanes e GlobalOceans. Ao registrar uma pasta principal, todos os subdiretórios abaixo da pasta que você especificar também serão registrados com o GeoAnalytics Server. Sempre registre a pasta pai (por exemplo, \\machinename\FileShareFolder) que contém um ou mais pastas de conjunto de dados individuais.

Exemplo de um compartilhamento do arquivo de grandes dados que contém três conjuntos de dados: Earthquakes, Hurricanes e GlobalOceans.


|---FileShareFolder                 < -- The top-level folder is what is registered as a big data file share
   |---Earthquakes                  < -- A dataset "Earthquakes", composed of 4 csvs with the same schema
      |---1960
         |---01_1960.csv
         |---02_1960.csv
      |---1961
         |---01_1961.csv
         |---02_1961.csv
   |---Hurricanes                   < -- The dataset "Hurricanes", composed of 3 shapefiles with the same schema
      |---atlantic_hur.shp
      |---pacific_hur.shp
      |---otherhurricanes.shp
   |---GlobalOceans                 < -- The dataset "GlobalOceans", composed of a single shapefile
      |---oceans.shp

Esta mesma estrutura é aplicada nos compartilhamentos de arquivo e HDFS, embora a terminologia seja diferente. Em um compartilhamento de arquivo, há uma pasta ou diretório de nível superior e os conjuntos de dados são representados pelos subdiretórios. No HDFS, a localização de compartilhamento de arquivo é registrada e contém conjunto de dados. A tabela seguinte esboça as diferenças:

Compartilhamento de arquivoHDFS

Local de compartilhamento do arquivo de grandes dados

Uma pasta ou diretório

Um caminho do HDFS

Conjuntos de Dados

Subpastas de nível superior

Conjuntos de dados dentro de caminho do HDFS

Após seus dados serem organizados como uma pasta com subpastas do conjunto de dados, disponibilize os seus dados para seu GeoAnalytics Server seguindo as etapas em Tornando seus dados acessíveis no ArcGIS Server e registrando a pasta do conjunto de dados.

Acessar o HDFS utilizando Kerberos

O GeoAnalytics Server pode acessar o HDFS utilizando a autenticação de Kerberos.

Siga estas etapas para registrar o compartilhamento de arquivo do HDFS utilizando a autenticação de Kerberos:

  1. Entre no seu site do GeoAnalytics Server do ArcGIS Server Diretório de Administrador.

    O ArcGIS Server Administrator Directory exige que você entre como um administrador. Para conectar no seu site federado do GeoAnalytics Server, você deve registrar utilizando um token do portal, que exige as credenciais do administrador do portal ou como o administrador de site primário do site GeoAnalytics Server . Se você não for um administrador do portal ou não ter acesso às informações de conta de administrador do site primário, contacte seu administrador do portal para completar estas etapas para você.

  2. Vá até dados > registerItem.
  3. Copie o texto seguinte e cole-o na caixa de texto Item. Atualize os seguintes valores:

    • <bigDataFileShareName>: Substitua com o nome que deseja para o compartilhamento de arquivo big data.
    • <hdfs path>: Substitua com o caminho de sistema de arquivos qualificado completos para o compartilhamento de arquivo big data, por exemplo, hdfs://domainname:port/folder.
    • <user@realm>: Substitua com o usuário e domínio do principal.
    • <keytab location>: Substitua com o local do arquivo keytab. O arquivo keytab deve estar acessível em todas as máquinas no site GeoAnalytics Server , por exemplo, //shared/keytab/hadoop.keytab.

    {
       "path": "/bigDataFileShares/<bigDataFileShareName>",
       "type": "bigDataFileShare",
       "info": 
             {
              "connectionString": "{\"path\":\"<hdfs path>",\"accessMode\":\"Kerberos\",\"principal\":\"user@realm\",\"keytab\":\"<keytab location>\"}",
              "connectionType": "hdfs"
             }
    }
      
    

  4. Clique em Registrar Item.

    Após o item ser registrado, o compartilhamento de arquivo big data aparece como um armazenamento de dados no ArcGIS Server Manager com um manifesto preenchido. Se o manifesto não estiver preenchido, continue com a Etapa 5.

  5. Registre no seu site do GeoAnalytics Server do ArcGIS Server Manager.

    Você pode entrar como um publicador ou administrador.

  6. Vá até Site > Armazenamentos de Dados e clique no botão Regenerar Manifesto próximo a seu novo compartilhamento de arquivo big data.

Você agora tem um compartilhamento do arquivo de grandes dados e manifesto do seu HDFS, que você acessará por autenticação de Kerberos. O item de compartilhamento do arquivo de grandes dados em seu portal aponta para um serviço do catálogo de grandes dados no GeoAnalytics Server.

Hive

No Hive, todas as tabelas em um banco de dados são reconhecidas como conjunto de dados em um compartilhamento do arquivo de grandes dados. No exemplo seguinte, há uma metastore com dois bancos de dados, default e CityData. Ao registrar um compartilhamento do arquivo de grandes dados do Hive pelo ArcGIS Server com seu GeoAnalytics Server, somente um banco de dados poderá ser selecionado. Neste exemplo, se o banco de dados CityData foi selecionado, há dois conjuntos de dados no compartilhamento do arquivo de grandes dados, FireData e LandParcels.


|---HiveMetastore                 < -- The top-level folder is what is registered as a big data file share
   |---default                    < -- A database
      |---Earthquakes
      |---Hurricanes
      |---GlobalOceans
   |---CityData				               < -- A database that is registered (specified in Server Manager)
      |---FireData
      |---LandParcels

Armazenamentos de nuvem

há três etapas a registrar um compartilhamento do arquivo de grandes dados do tipo de armazenamento de nuvem.

Preparar seus dados

Para preparar seus dados para um compartilhamento do arquivo de grandes dados em um armazenamento de nuvem, formate seu conjunto de dados como subpastas em uma única pasta principal.

O seguinte é um exemplo de como estruturar seus dados. Este exemplo registra a pasta principal, FileShareFolder, que contém três conjuntos de dados Earthquakes, Hurricanes e GlobalOceans. Quando você registrar uma pasta principal, todos os subdiretórios na pasta que você especifica também são registrados com GeoAnalytics Server.

Exemplo de como estruturar dados em um armazenamento de nuvem que será utilizado como um compartilhamento do arquivo de grandes dados. Este arquivo de grandes dados contém três conjunto de dados: Earthquakes, Hurricanes e GlobalOceans.


|---Cloud Store                          < -- The cloud store being registered
   |---Container or S3 Bucket Name       < -- The container (Azure) or bucket (Amazon) being registered as part of the cloud store
      |---FileShareFolder                < -- The parent folder that is registered as the 'folder' during cloud store registration
         |---Earthquakes                 < -- The dataset "Earthquakes", composed of 4 csvs with the same schema
            |---1960
               |---01_1960.csv
               |---02_1960.csv
            |---1961
               |---01_1961.csv
               |---02_1961.csv
         |---Hurricanes                  < -- The dataset "Hurricanes", composed of 3 shapefiles with the same schema
            |---atlantic_hur.shp
            |---pacific_hur.shp
            |---otherhurricanes.shp
         |---GlobalOceans                < -- The dataset "GlobalOceans", composed of 1 shapefile
            |---oceans.shp

Registre o armazenamento de nuvem com seu GeoAnalytics Server

Conecte no seu site do GeoAnalytics Server do ArcGIS Server Manager para registrar uma armazenamento de nuvem. Quando você registra um armazenamento de nuvem, você deve incluir um nome de contêiner do Azure, um nome de recipiente do Amazon S3 ou um nome de conta do Azure Data Lake Store. É adicionalmente recomendado especificar a pasta dentro do contêiner. A pasta especificada é composta de subpastas e cada uma representa um conjunto de dados individual. Cada conjunto de dados é composto de todo o conteúdo da subpasta.

Registrar o armazenamento de nuvem como um compartilhamento do arquivo de grandes dados

Siga estas etapas para registrar o armazenamento de nuvem que você criou na seção anterior como um compartilhamento de arquivo big data:

  1. Entre no seu site do GeoAnalytics Server do ArcGIS Server Manager.

    Você pode entrar como um publicador ou administrador.

  2. Vá até Site > Armazenamento de Dados e escolha Compartilhamento do Arquivo de Grandes Dados da lista suspensa Registrar.
  3. Forneça as informações seguintes na caixa de diálogo Registrar Compatilhamento do Arquivo de Grandes Dados:
    1. Digite um nome para os compartilhamento do arquivo de grandes dados.
    2. Escolha Armazenamento de Nuvem a partir da lista suspensa Tipo.
    3. Escolha o nome do seu armazenamento de nuvem a partir da lista suspensa Armazenamento de Nuvem.
    4. Clique em Criar para registrar seu armazenamento de nuvem como um compartilhamento do arquivo de grandes dados.

Você agora tem um compartilhamento do arquivo de grandes dados e manifesto do seu armazenamento de nuvem. O item de compartilhamento do arquivo de grandes dados em seu portal aponta para um serviço do catálogo de grandes dados no GeoAnalytics Server.

Registrar seu compartilhamento do arquivo de grandes dados

Para registrar um compartilhamento de arquivo, HDFS ou armazenamento de nuvem do Hive como um compartilhamento do arquivo de grandes dados, conecte ao seu site do GeoAnalytics Server pelo ArcGIS Server Manager. Consulte Registrar seus dados com ArcGIS Server utilizando o Manager na ajuda do ArcGIS Server para detalhes sobre as etapas necessárias.

Dica:

As etapas para registrar um armazenamento de nuvem como um compartilhamento do arquivo de grandes dados foram cobertas na seção anterior.

Quando um compartilhamento do arquivo de grandes dados é registrado, um manifesto é gerado que esboça o formato dos conjuntos de dados dentro do local de compartilhamento, incluindo os campos representando a geometria e o tempo. Se você optar por registrar seu compartilhamento do arquivo de grandes dados como um local de saída, um manifesto do modelo de saída também será gerado. Um item de compartilhamento do arquivo de grandes dados é criado em seu portal que aponta para um serviço do catálogo de grandes dados no GeoAnalytics Server onde você registrou os dados. Para aprender mais sobre serviços do catálogo de grandes dados, consulte a documentação Serviço do Catálogo de Grandes Dados na ajuda do ArcGIS Services REST API.

Modificar um compartilhamento do arquivo de grandes dados

Quando um serviço do catálogo de grandes dados é criado, um manifesto para os dados de entrada é gerado automaticamente e carregado no site do GeoAnalytics Server onde você registrou os dados. O processo de gerar um manifesto nem sempre pode estimar os campos representando a geometria e o tempo corretamente e você pode precisar aplicar edições. Para editar um manifesto, siga as etapas em Editar manifestos de compartilhamento do arquivo de grandes dados no Manager. Para aprender mais sobre o manifesto de compartilhamento do arquivo de grandes dados, consulte Entendendo o manifesto de compartilhamento do arquivo de grandes dados na ajuda do ArcGIS Server.

Modificar os modelos de saída para um compartilhamento do arquivo de grandes dados

Quando você escolhe utilizar o compartilhamento do arquivo de grandes dados como um local de saída, os modelos de saída são gerados automaticamente. Estes modelos descrevem a formatação dos resultados da análise de saída, como o tipo de arquivo e como o tempo e a geometria serão registrados. Se você deseja modificar a geometria ou a formatação de hora, ou adicionar ou excluir modelos, poderá modificar os modelos. Para editar os modelos de saída, siga as etapas em Editar manifestos de compartilhamento do arquivo de grandes dados no Manager. Para aprender mais sobre modelos de saída, consulte Modelos de saída em um compartilhamentos do arquivo de grandes dados.

Executar a análise em um compartilhamento do arquivo de grandes dados

Você pode executar a análise em um conjunto de dados em um compartilhamento de arquivo big data por quaisquer clientes que suporte GeoAnalytics Server, que inclui o seguinte:

  • ArcGIS Pro
  • Map Viewer
  • ArcGIS REST API
  • ArcGIS API for Python

Para executar sua análise em um compartilhamento do arquivo de grandes dados através do ArcGIS Pro ou Map Viewer, selecione a Ferramentas de GeoAnalytics que deseja utilizar. Para a entrada da ferramenta, navegue até onde seus dados estão localizados no Portal do ArcGIS Pro ou na caixa de diálogo Procurar Camadas no Map Viewer. Os dados estarão em Meu Conteúdo se você mesmo registrou os dados. Caso contrário, procure em seus Grupos ou Portal Inteiro. Note que uma camada de compartilhamento do arquivo de grandes dados selecionada para análise não será exibida no mapa.

Anotação:

Certifique-se de estar registrado em uma conta do portal com acesso ao compartilhamento do arquivo de grandes dados registrado. Você pode procurar seu portal com o termo bigDataFileShare* para localizar rapidamente todos os compartilhamentos do arquivo de grandes dados que você pode acessar.

Para executar a análise em um compartilhamento do arquivo de grandes dados através da API ArcGIS REST, utilize a URL de serviço do catálogo de grandes dados como a entrada. Isto estará no formato {"url":" https://webadaptorhost.domain.com/webadaptorname/rest/DataStoreCatalogs/bigDataFileShares_filesharename/BigDataCatalogServer/dataset"}. Por exemplo, com uma máquina denominada example, um domínio denominado esri, um Web Adaptor denominado server, um compartilhamento do arquivo de grandes dados denominado MyData, e um conjunto de dados denominado Earthquakes, a URL seria: {"url":" https://example.esri.com/server/rest/DataStoreCatalogs/bigDataFileShares_MyData/BigDataCatalogServer/Earthquakes"}. Para aprender mais sobre a entrada para análise de grandes dados através do REST, consulte o tópico Entrada de Feição na documentação do ArcGIS Services REST API.

Salvar resultados em um compartilhamento do arquivo de grandes dados

Você pode executar a análise em um conjunto de dados (compartilhamento do arquivo de grandes dados ou outra entrada) e salvar os resultados em um compartilhamento do arquivo de grandes dados. Quando você salva os resultados em um compartilhamento do arquivo de grandes dados, voce não consegue visualizá-los. Você pode fazer isto através dos seguintes clientes:

  • Map Viewer
  • ArcGIS REST API
  • ArcGIS API for Python

Quando você grava resultados em um compartilhamento do arquivo de grandes dados, o manifesto de entrada é atualizado para incluir o conjunto de dados que você acabou de salvar. Os resultados que você gravou no compartilhamento do arquivo de grandes dados agora estão disponíveis como uma entrada para outra execução da ferramenta.