Skip To Content

Iniciar com compartilhamentos do arquivo de grandes dados

Sobre compartilhamentos do arquivo de grandes dados

Um compartilhamento do arquivo de grandes dados é um item criado no seu portal que referencia dados de feição (pontos, polilinhas, polígonos ou dados tabelares) em um local disponível no seu ArcGIS GeoAnalytics Server. O item de compartilhamento do arquivo de grandes dados no seu portal permite a você procurar seus dados registrados a partir das ferramentas do ArcGIS GeoAnalytics Server. Os compartilhamentos do arquivo de grandes dados podem referenciar as seguintes fontes de dados:

  • Compartilhamento de arquivo—Um diretório de conjunto de dados em um disco local ou rede de compartilhamento.
  • HDFS—Apache Hadoop Distributed File System (HDFS) diretório de conjunto de dados.
  • Hive—Bancos de dados metastore Apache Hive.
  • Cloud store—Em contêiner do Amazon Simple Storage Service (S3), contêiner do Microsoft Azure Blob ou Microsoft Azure Data Lake Store contendo um diretório de conjunto de dados.
    Anotação:

    Suporte para Microsoft Azure Data Lake Store é adicionado no ArcGIS Enterprise 10.6.1.

Anotação:

Um compartilhamento do arquivo de grandes dados está somente disponível para utilizar se o administrador do portal habilitou o GeoAnalytics Server. Para aprender mais sobre habilitar o GeoAnalytics Server, consulte Configurar o ArcGIS GeoAnalytics Server.

Há diversos benefícios para utilizar um compartilhamento do arquivo de grandes dados comum para todas as fontes de dados. Você pode manter seus dados em um local acessível até que você esteja pronto para executar a análise. Um compartilhamento do arquivo de grandes dados acessa os dados quando a análise é executada, de forma que você possa continuar a adicionar mais dados de um conjunto de dados existente no seu compartilhamento do arquivo de grandes dados sem ter que registrar novamente ou publicar seus dados. Você também pode modificar o manifesto para remover, adicionar ou atualizar conjunto de dados no compartilhamento do arquivo de grandes dados. Os compartilhamentos do arquivo de grandes dados são extremamente flexíveis em como o tempo e a geometria podem ser definidos e permite múltiplos formatos de tempo em um único conjunto de dados. Os compartilhamentos do arquivo de grandes dados também permitem a você particionar seus conjuntos de dados, enquanto ainda tratar múltiplas partições como um único conjunto de dados.

Anotação:

Os compartilhamentos do arquivos de grandes dados são somente acessados ao executar o Ferramentas do GeoAnalytics. Isto significa que você pode somente procurar e adicionar arquivos de grandes dados na sua análise; você não pode visualizar os dados em um mapa.

O compartilhamento do arquivo de grandes dados é um dos diversos modos que o Ferramentas do GeoAnalytics pode acessar seus dados. Consulte Utilizar o Ferramentas do GeoAnalytics no Map Viewer para uma lista de possíveis entradas de dados do Ferramentas do GeoAnalytics .

Os seguintes tipos de arquivo são suportados como conjunto de dados em compartilhamentos do arquivo de grandes dados:

  • Arquivos delimitados (como .csv, .tsv e .txt)
  • Shapefiles (.shp)
  • Arquivos Parquet (.gz.parquet)
  • Arquivos ORC (orc.crc)

Preparar seus dados para serem registrados como um compartilhamento do arquivo de grandes dados

Compartilhamentos de arquivo e HDFS

Para preparar seus dados para um compartilhamento do arquivo de grandes dados, você precisa formatar seus conjuntos de dados como subpastas em uma única pasta principal que será registrada. Nesta pasta principal que você registrar, os nomes das subpastas representarão os nomes do conjunto de dados. Se as suas subpastas tiverem múltiplas pastas ou arquivos, todo o conteúdo do nível superior das subpastas serão lidos como um único conjunto de dados e deverão compartilhar o mesmo esquema. O seguinte é um exemplo de como registrar a pasta FileShareFolder que contém três conjuntos de dados, denominados Earthquakes, Hurricanes e GlobalOceans. Ao registrar uma pasta principal, todos os subdiretórios abaixo da pasta que você especificar também serão registrados com o GeoAnalytics Server. Sempre registre a pasta pai (por exemplo, \\machinename\FileShareFolder) que contém um ou mais pastas de conjunto de dados individuais.

Exemplo de um compartilhamento do arquivo de grandes dados que contém três conjuntos de dados: Earthquakes, Hurricanes e GlobalOceans.

|---FileShareFolder                 < -- The top-level folder is what is registered as a big data file share
   |---Earthquakes                  < -- A dataset "Earthquakes", composed of 4 csvs with the same schema
      |---1960
         |---01_1960.csv
         |---02_1960.csv
      |---1961
         |---01_1961.csv
         |---02_1961.csv
   |---Hurricanes                   < -- The dataset "Hurricanes", composed of 3 shapefiles with the same schema
      |---atlantic_hur.shp
      |---pacific_hur.shp
      |---otherhurricanes.shp
   |---GlobalOceans                 < -- The dataset "GlobalOceans", composed of a single shapefile
      |---oceans.shp

Esta mesma estrutura é aplicada nos compartilhamentos de arquivo e HDFS embora a terminologia seja diferente. Em um compartilhamento de arquivo, há uma pasta ou diretório de nível superior e os conjuntos de dados são representados pelos subdiretórios. Em HDFS, a localização de compartilhamento de arquivo é registrada e contém conjunto de dados. A tabela seguinte esboça as diferenças:

Compartilhamento de arquivoHDFS

Local de compartilhamento do arquivo de grandes dados

Uma pasta ou diretório

Um caminho de HDFS

Conjuntos de Dados

Subpastas de nível superior

Conjuntos de dados dentro do caminho de HDFS

Após seus dados serem organizados como uma pasta com subpastas do conjunto de dados, disponibilize os seus dados para seu GeoAnalytics Server seguindo as etapas em Tornando seus dados acessíveis no ArcGIS Server e registrando a pasta do conjunto de dados.

Acessando HDFS utilizando Kerberos

No ArcGIS Enterprise 10.6.1 GeoAnalytics Server pode acessar HDFS utilizando autenticação Kerberos.

Siga estas etapas para registrar o compartilhamento de arquivo de HDFS utilizando autenticação de Kerberos:

  1. Registre no seu site do GeoAnalytics Server do ArcGIS Server Diretório de Administrador.

    Diretório de Administrador do ArcGIS Server requer que você registre como um administrador. Para conectar no seu site federado do GeoAnalytics Server, você deve registrar utilizando um token do portal, que exige as credenciais do administrador do portal ou como o administrador de site primário do site GeoAnalytics Server . Se você não for um administrador do portal ou não ter acesso às informações de conta de administrador do site primário, contacte seu administrador do portal para completar estas etapas para você.

  2. Vá até dados > registerItem.
  3. Copie o texto seguinte e cole-o na caixa de texto Item. Atualize os seguintes valores:

    • <bigDataFileShareName>: Substitua com o nome que deseja para o compartilhamento de arquivo big data.
    • <hdfs path>: Substitua com o caminho de sistema de arquivos qualificado completos para o compartilhamento de arquivo big data, por exemplo, hdfs://domainname:port/folder.
    • <user@realm>: Substitua com o usuário e domínio do principal.
    • <keytab location>: Substitua com o local do arquivo keytab. O arquivo keytab deve estar acessível em todas as máquinas no site GeoAnalytics Server , por exemplo, //shared/keytab/hadoop.keytab.

    {
       "path": "/bigDataFileShares/<bigDataFileShareName>",
       "type": "bigDataFileShare",
       "info": 
             {
              "connectionString": "{\"path\":\"<hdfs path>",\"accessMode\":\"Kerberos\",\"principal\":\"user@realm\",\"keytab\":\"<keytab location>\"}",
              "connectionType": "hdfs"
             }
    }
      
    

  4. Clique em Registrar Item.

    Após o item ser registrado, o compartilhamento de arquivo big data aparece como um armazenamento de dados no ArcGIS Server Manager com um manifesto preenchido. Se o manifesto não estiver preenchido, continue com a Etapa 5.

  5. Registre no seu site do GeoAnalytics Server do ArcGIS Server Manager.

    Você pode registrar como um publicador ou administrador.

  6. Vá até Site > Armazenamentos de Dados e clique no botão Regenerar Manifesto próximo a seu novo compartilhamento de arquivo big data.

Você agora tem um compartilhamento de arquivo big data e manifesto do seu HDFS, que você acessará por autenticação de Kerberos. O item de compartilhamento do arquivo de grandes dados em seu portal aponta para um serviço do catálogo de grandes dados no GeoAnalytics Server.

Hive

No Hive, todas as tabelas em um banco de dados são reconhecidas como conjunto de dados em um compartilhamento do arquivo de grandes dados. No exemplo seguinte, há uma metastore com dois bancos de dados, default e CityData. Ao registrar um compartilhamento do arquivo de grandes dados do Hive através do ArcGIS Server com seu GeoAnalytics Server, somente um banco de dados poderá ser selecionado. Neste exemplo, se o banco de dados CityData foi selecionado, há dois conjuntos de dados no compartilhamento do arquivo de grandes dados, FireData e LandParcels.

|---HiveMetastore                 < -- The top-level folder is what is registered as a big data file share
   |---default                    < -- A database
      |---Earthquakes
      |---Hurricanes
      |---GlobalOceans
   |---CityData				               < -- A database that is registered (specified in Server Manager)
      |---FireData
      |---LandParcels

Armazenamentos de nuvem

há três etapas a registrar um compartilhamento do arquivo de grandes dados do tipo de armazenamento de nuvem.

Preparar seus dados

Para preparar seus dados para um compartilhamento do arquivo de grandes dados em um armazenamento de nuvem, formate seu conjunto de dados como subpastas em uma única pasta principal.

O seguinte é um exemplo de como estruturar seus dados. Este exemplo registra a pasta principal, FileShareFolder, que contém três conjuntos de dados Earthquakes, Hurricanes e GlobalOceans. Quando você registrar uma pasta principal, todos os subdiretórios na pasta que você especifica também são registrados com GeoAnalytics Server.

Exemplo de como estruturar dados em um armazenamento de nuvem que será utilizado como um compartilhamento do arquivo de grandes dados. Este arquivo de grandes dados contém três conjunto de dados: Earthquakes, Hurricanes e GlobalOceans.

|---Cloud Store                          < -- The cloud store being registered
   |---Container or S3 Bucket Name       < -- The container (Azure) or bucket (Amazon) being registered as part of the cloud store
      |---FileShareFolder                < -- The parent folder that is registered as the 'folder' during cloud store registration
         |---Earthquakes                 < -- The dataset "Earthquakes", composed of 4 csvs with the same schema
            |---1960
               |---01_1960.csv
               |---02_1960.csv
            |---1961
               |---01_1961.csv
               |---02_1961.csv
         |---Hurricanes                  < -- The dataset "Hurricanes", composed of 3 shapefiles with the same schema
            |---atlantic_hur.shp
            |---pacific_hur.shp
            |---otherhurricanes.shp
         |---GlobalOceans                < -- The dataset "GlobalOceans", composed of 1 shapefile
            |---oceans.shp

Registre o armazenamento de nuvem com seu GeoAnalytics Server

Conecte no seu site do GeoAnalytics Server do ArcGIS Server Manager para registrar uma armazenamento de nuvem. Quando você registrar um armazenamento de nuvem, você deve incluir um nome de contêiner Azure, um nome de contêiner Amazon S3 ou um nome de conta do Azure Data Lake Store. É adicionalmente recomendado especificar a pasta dentro do contêiner. A pasta especificada é composta de subpastas e cada uma representa um conjunto de dados individual. Cada conjunto de dados é composto de todo o conteúdo da subpasta.

Registrar o armazenamento de nuvem como um compartilhamento do arquivo de grandes dados

Siga estas etapas para registrar o armazenamento de nuvem que você criou na seção anterior como um compartilhamento de arquivo big data:

  1. Registre no seu site do GeoAnalytics Server do ArcGIS Server Manager.

    Você pode registrar como um publicador ou administrador.

  2. Vá até o Site > Armazenando Dados e escolha Compartilhamento do Arquivo de Grandes Dados da lista suspensa Registrar.
  3. Forneça as informações seguintes na caixa de diálogo Registrar Compatilhamento do Arquivo de Grandes Dados:
    1. Digite um nome para os compartilhamento do arquivo de grandes dados.
    2. Escolha Armazenamento de Nuvem a partir da lista suspensa Tipo.
    3. Escolha o nome do seu armazenamento de nuvem a partir da lista suspensa Armazenamento de Nuvem.
    4. Clique em Criar para registrar seu armazenamento de nuvem como um compartilhamento do arquivo de grandes dados.

Você agora tem um compartilhamento do arquivo de grandes dados e manifesto do seu armazenamento de nuvem. O item de compartilhamento do arquivo de grandes dados em seu portal aponta para um serviço do catálogo de grandes dados no GeoAnalytics Server.

Registrar seu compartilhamento do arquivo de grandes dados

Para registrar um compartilhamento de arquivo, HDFS, ou armazenamento de dados Hive como um compartilhamento do arquivo de grandes dados, conecte a seu site do GeoAnalytics Server pelo ArcGIS Server Manager. Consulte Registrar seus dados com ArcGIS Server utilizando o Manager na ajuda do ArcGIS Server para detalhes sobre as etapas necessárias.

Dica:

As etapas para registrar um armazenamento de nuvem como um compartilhamento do arquivo de grandes dados foram cobertas na seção anterior.

Quando um compartilhamento do arquivo de grandes dados é registrado, um manifesto é gerado que esboça o formato dos conjuntos de dados dentro do local de compartilhamento, incluindo os campos representando a geometria e o tempo. Um item de compartilhamento do arquivo de grandes dados é criado em seu portal que aponta para um serviço do catálogo de grandes dados no GeoAnalytics Server onde você registrou os dados. Para aprender mais sobre serviços do catálogo de grandes dados, consulte a documentação Serviço do Catálogo de Grandes Dados na ajuda do ArcGIS Services REST API.

Modificar um compartilhamento do arquivo de grandes dados

Quando um serviço do catálogo de grandes dados é criado, um manifesto é gerado automaticamente e transferido para o site do GeoAnalytics Server onde você registrou os dados. O processo de gerar um manifesto nem sempre pode estimar os campos representando a geometria e o tempo corretamente e você pode precisar aplicar edições. Para editar um manifesto, siga as etapas em Editar compartilhamentos do arquivo de grandes dados no Manager. Para aprender mais sobre o manifesto de compartilhamento do arquivo de grandes dados, consulte Entendendo o manifesto de compartilhamento do arquivo de grandes dados na ajuda do ArcGIS Server.

Executar a análise em um compartilhamento do arquivo de grandes dados

Você pode executar a análise em um conjunto de dados em um compartilhamento de arquivo big data por quaisquer clientes que suporte GeoAnalytics Server, que inclui o seguinte:

  • ArcGIS Pro
  • Map Viewer
  • ArcGIS REST API
  • ArcGIS API for Python

Para executar sua análise em um compartilhamento do arquivo de grandes dados através do ArcGIS Pro ou Map Viewer, selecione a Ferramentas do GeoAnalytics que deseja utilizar. Para a entrada da ferramenta, navegue até onde seus dados estão localizados no Portal do ArcGIS Pro ou na caixa de diálogo Procurar Camadas no Map Viewer. Os dados estarão em Meu Conteúdo se você mesmo registrou os dados. Caso contrário, procure em seus Grupos ou Portal Inteiro. Note que uma camada de compartilhamento do arquivo de grandes dados selecionada para análise não será exibida no mapa.

Anotação:

Certifique-se de estar registrado em uma conta do portal com acesso ao compartilhamento do arquivo de grandes dados registrado. Você pode procurar seu portal com o termo bigDataFileShare* para localizar rapidamente todos os compartilhamentos do arquivo de grandes dados que você pode acessar.

Para executar a análise em um compartilhamento do arquivo de grandes dados através da API ArcGIS REST, utilize a URL de serviço do catálogo de grandes dados como a entrada. Isto estará no formato {"url":" https://webadaptorhost.domain.com/webadaptorname/rest/DataStoreCatalogs/bigDataFileShares_filesharename/BigDataCatalogServer/dataset"}. Por exemplo, com uma máquina denominada example, um domínio denominado esri, um Web Adaptor denominado server, um compartilhamento do arquivo de grandes dados denominado MyData, e um conjunto de dados denominado Earthquakes, a URL seria: {"url":" https://example.esri.com/server/rest/DataStoreCatalogs/bigDataFileShares_MyData/BigDataCatalogServer/Earthquakes"}. Para aprender mais sobre a entrada para análise de grandes dados através do REST, consulte o tópico Entrada de Feição na documentação do ArcGIS Services REST API.