Skip To Content

O que é um compartilhamento do arquivo de grandes dados?

Sobre compartilhamentos do arquivo de grandes dados

Um compartilhamento do arquivo de grandes dados é um item criado no seu portal que referencia dados de feição (pontos, polilinhas, polígonos ou dados tabelares) em um local disponível no seu ArcGIS GeoAnalytics Server. O item de compartilhamento de arquivo big data em seu portal permite a você procurar seus dados registrados a partir das ferramentas do ArcGIS GeoAnalytics Server. Os compartilhamentos do arquivo de grandes dados podem referenciar as seguintes fontes de dados:

  • Compartilhamento de arquivo—Um diretório de conjunto de dados em um disco local ou rede de compartilhamento.
  • HDFS—Um diretório de conjunto de dados HDFS (Hadoop Distributed File System).
  • Hive—Bancos de dados do Metastore.
  • Armazenamento em nuvem—Um contêiner do Amazon Web Services (AWS) Simple Storage Service (S3) ou Microsoft Azure Blob contendo um diretório de conjunto de dados. Os armazenamentos de nuvem estão disponível iniciando com ArcGIS 10.5.1.

Anotação:

Um compartilhamento de arquivo big data está somente disponível para utilizar se o administrador do portal habilitou o GeoAnalytics Server. Para aprender mais sobre habilitar o GeoAnalytics Server, consulte Configurar o ArcGIS GeoAnalytics Server.

Há diversos benefícios para utilizar um compartilhamento do arquivo de grandes dados comum para todas as fontes de dados. Você pode manter seus dados em seu local acessível até que você esteja pronto para executar a análise. Um compartilhamento do arquivo de grandes dados acessa os dados quando a análise é executada, de forma que você possa continuar a adicionar mais dados de um conjunto de dados existente no seu compartilhamento do arquivo de grandes dados sem ter que registrar novamente ou publicar seus dados. Você também pode modificar o manifesto para remover, adicionar ou atualizar conjunto de dados no compartilhamento de arquivo big data. Os compartilhamentos do arquivo de grandes dados são extremamente flexíveis sobre como o tempo e a geometria podem ser definidos e permite múltiplos formatos de tempo em um único conjunto de dados. Os compartilhamentos do arquivo big data também permitem a você particionar seus conjuntos de dados, enquanto ainda tratar múltiplas partições como um único conjunto de dados.

Anotação:

Os compartilhamentos de arquivos big data são somente acessados ao executar o GeoAnalytics Tools. Isto significa que você pode somente procurar e adicionar arquivos de grandes dados na sua análise; você não pode visualizar os dados em um mapa.

O compartilhamento de arquivos big data é um dos diversos modos que o GeoAnalytics Tools pode acessar seus dados. Consulte Utilizar as GeoAnalytics Tools no visualizador de mapa do portal para uma lista de possíveis entradas de dados das GeoAnalytics Tools.

Preparar seus dados para serem registrados como um compartilhamento do arquivo de grandes dados

Compartilhamentos de arquivo e HDFS

Para preparar seus dados para um compartilhamento do arquivo de grandes dados, você precisa formatar seus conjuntos de dados como subpastas em uma única pasta principal que será registrada. Nesta pasta principal que você registrar, os nomes das subpastas representarão os nomes do conjunto de dados. Se as suas subpastas tiverem múltiplas pastas ou arquivos, todo o conteúdo do nível superior das subpastas serão lidos como um único conjunto de dados. O seguinte é um exemplo de como registrar a pasta FileShareFolder que contém três conjuntos de dados, denominados Earthquakes, Hurricanes e GlobalOceans. Ao registrar uma pasta principal, todos os subdiretórios abaixo da pasta que você especificar também serão registrados com o GeoAnalytics Server. Sempre registre a pasta pai (por exemplo, \\machinename\FileShareFolder) que contém um ou mais pastas de conjunto de dados individuais.

Exemplo de um compartilhamento do arquivo de grandes dados que contém três conjuntos de dados: Earthquakes, Hurricanes e GlobalOceans.

|---FileShareFolder                 < -- The top-level folder is what is registered as a big data file share
   |---Earthquakes                  < -- A dataset is all files and folders within the top-level subfolder
      |---1960
         |---01_1960.csv
         |---02_1960.csv
      |---1961
         |---01_1961.csv
         |---02_1961.csv
   |---Hurricanes
      |---atlantic_hur.shp
      |---pacific_hur.shp
      |---otherhurricanes.shp
   |---GlobalOceans
      |---oceans.shp

Esta mesma estrutura é aplicada nos compartilhamentos de arquivo e HDFS embora a terminologia seja diferente. Em um compartilhamento de arquivo, há uma pasta ou diretório de nível superior e os conjuntos de dados são representados pelos subdiretórios. Em HDFS, a localização de compartilhamento de arquivo é registrada e contém conjunto de dados. A tabela seguinte esboça as diferenças:

Compartilhamento de arquivoHDFS

Local de compartilhamento do arquivo de grandes dados

Uma pasta ou diretório

Um caminho de HDFS

Conjuntos de Dados

Subpastas de nível superior

Conjuntos de dados dentro do caminho de HDFS

Após seus dados forem organizados como uma pasta com subpastas do conjunto de dados, disponibilize os seus dados para seu GeoAnalytics Server seguindo as etapas em Tornando seus dados acessíveis no ArcGIS Server e registre a pasta do conjunto de dados.

Ramificação

No Hive, todas as tabelas em um banco de dados são reconhecidas como conjunto de dados em um compartilhamento do arquivo de grandes dados. No exemplo seguinte, há uma metastore com dois bancos de dados, default e CityData. Ao registrar um compartilhamento do arquivo big data do Hive através do ArcGIS Server com seu GeoAnalytics Server, somente um banco de dados pode ser selecionado. Neste exemplo, se o banco de dados CityData foi selecionado, há dois conjuntos de dados no compartilhamento do arquivo de grandes dados, FireData e LandParcels.

|---HiveMetastore                 < -- The top-level folder is what is registered as a big data file share   |---default                    < -- A database      |---Earthquakes      |---Hurricanes      |---GlobalOceans   |---CityData				               < -- A database that is registered (specified in Server Manager)      |---FireData      |---LandParcels

Armazenamentos de nuvem

há três etapas a registrar um compartilhamento de arquivo big data do tipo de armazenamento de nuvem.

Preparar seus dados

Para preparar seus dados para um compartilhamento de arquivo big data em um armazenamento de nuvem, formate seu conjunto de dados como subpastas em uma pasta pai única.

O seguinte é um exemplo de como estruturar seus dados. Este exemplo registra a pasta pai, FileShareFolder, que contém três conjuntos de dados Earthquakes, Hurricanes e GlobalOceans. Quando você registrar uma pasta pai, todos os subdiretórios na pasta que você especifica também são registrados com GeoAnalytics Server.

O exemplo de como estruturar dados em um armazenamento de nuvem que será utilizado como um compartilhamento de arquivo big data. Este arquivo big data contém três conjunto de dados: Earthquakes, Hurricanes e GlobalOceans.

|---Cloud Store                          < -- The cloud store being registered
   |---Container or S3 Bucket Name       < -- The container (Azure) or bucket (Amazon) being registered as part of the cloud store
      |---FileShareFolder                < -- The parent folder that is registered as the 'folder' during cloud store registration
         |---Earthquakes                 < -- The dataset "Earthquakes" composed of 4 csvs
            |---1960
               |---01_1960.csv
               |---02_1960.csv
            |---1961
               |---01_1961.csv
               |---02_1961.csv
         |---Hurricanes                  < -- The dataset "Hurricanes" composed of 3 shapefiles
            |---atlantic_hur.shp
            |---pacific_hur.shp
            |---otherhurricanes.shp
         |---GlobalOceans                < -- The dataset "GlobalOceans" composed of 1 shapefile
            |---oceans.shp

Registre o armazenamento de nuvem para seu GeoAnalytics Server

Conecte no seu site do GeoAnalytics Server do ArcGIS Server Manager para registrar uma armazenamento de nuvem. Quando você registrar um armazenamento de nuvem, você deve incluir um nome de contêiner Azure ou um nome de recipiente AWS S3, como também uma pasta dentro do contêiner ou recipiente. A pasta especificada é composta de subpastas e cada uma representa um conjunto de dados individual. Cada conjunto de dados é composto de todo o conteúdo da subpasta.

Registre o armazenamento de nuvem como um compartilhamento de arquivo big data

A forma com que você registra o armazenamento de nuvem como um compartilhamento de arquivo big data depende de qual armazenamento de nuvem que você utiliza.

Siga estas etapas para registrar o armazenamento de nuvem AWS S3 que você criou na seção anterior como um compartilhamento de arquivo big data:

  1. Registre no seu site do GeoAnalytics Server do ArcGIS Server Manager.

    Você pode registrar como um publicador ou administrador.

    Anotação:

    No GeoAnalytics Server 10.5.1, você não pode registrar um armazenamento de nuvem AWS utilizando credenciais de IAM.

  2. Vá até o Site > Armazenando Dados e escolha Compartilhamento do Arquivo de Grandes Dados da lista suspensa Registrar.
  3. Forneça as informações seguintes na caixa de diálogo Registrar Compatilhamento do Arquivo de Grandes Dados:
    1. Digite um nome para os compartilhamento de arquivo big data.
    2. Escolha Armazenamento de Nuvem a partir da lista suspensa Tipo.
    3. Escolha o nome do seu armazenamento de nuvem AWS a partir da lista suspensa Armazenamento de Nuvem.
    4. Clique em Criar para registrar seu armazenamento de nuvem como um compartilhamento de arquivo big data.

Você agora tem um compartilhamento de arquivo big data e manifesto do seu armazenamento de nuvem AWS. O item de compartilhamento de arquivo big data em seu portal aponta para um serviço de catálogo de big data no GeoAnalytics Server.

Siga estas etapas para registrar o armazenamento de nuvem Azure que você criou na última seção como um compartilhamento de arquivo big data:

  1. Registre no seu site do GeoAnalytics Server do ArcGIS Server Diretório de Administrador.

    Diretório de Administrador do ArcGIS Server requer que você registre como um administrador. Para conectar no seu site federado do GeoAnalytics Server, você deve registrar utilizando um token do portal, que exige as credenciais do administrador do portal ou como o administrador de site primário do site GeoAnalytics Server . Se você não for um administrador do portal ou não ter acesso às informações de conta de administrador do site primário, contacte seu administrador do portal para completar estas etapas para você.

  2. Vá até dados > registerItem.
  3. Copie o texto seguinte e cole-o na caixa de texto Item. Atualize o valor <bigDataFileShareName> com o nome que deseja para o compartilhamento de arquivo big data e o valor <cloudStoreName> com o nome que você especificou para o armazenamento de nuvem Azure quando você registrou com seu site do GeoAnalytics Server.

    {
       "path": "/bigDataFileShares/<bigDataFileShareName>",
       "type": "bigDataFileShare",
       "info": {
       "connectionString": "{\"path\" : \"/cloudStores/<cloudStoreName>\"}",
       "connectionType": "dataStore"
       }
       }
    

  4. Clique em Registrar Item.

    Após o item ser registrado, o compartilhamento de arquivo big data aparece como um armazenamento de dados no ArcGIS Server Manager.

  5. Registre no seu site GeoAnalytics Server GeoAnalytics Server do ArcGIS Server Manager.

    Você pode registrar como um publicador ou administrador.

  6. Vá até Site > Armazenamentos de Dados e clique no botão Regenerar Manifesto próximo a seu novo compartilhamento de arquivo big data.

Você agora tem um compartilhamento de arquivo big data e manifesto do seu armazenamento de nuvem Azure. O item de compartilhamento de arquivo big data em seu portal aponta para um serviço de catálogo de big data no GeoAnalytics Server.

Registrar seu compartilhamento do arquivo de grandes dados

Para registrar um compartilhamento de arquivo, HDFS, ou armazenamento de dados Hive como um compartilhamento de arquivo big data, conecte a seu site do GeoAnalytics Server pelo ArcGIS Server Manager. Consulte Registrar seus dados com ArcGIS Server utilizando o Manager na ajuda do ArcGIS Server para detalhes sobre as etapas necessárias.

Dica:

As etapas para registrar um armazenamento de nuvem como um compartilhamento de arquivo big data foram cobertas na seção anterior.

Quando um compartilhamento do arquivo de grandes dados é registrado, um manifesto é gerado que esboça o formato dos conjuntos de dados dentro do local de compartilhamento, incluindo os campos representando a geometria e o tempo. Um item de compartilhamento de arquivo big data é criado em seu portal que aponta para um serviço de catálogo de big data no GeoAnalytics Server onde você registrou os dados. Para aprender mais sobre serviços do catálogo de grandes dados, consulte a documentação Serviço de Catálogo do Big Data na ajuda do ArcGIS Services REST API.

Modificar um compartilhamento do arquivo de grandes dados

When um serviço de catálogo de big data é criado, um manifesto é gerado automaticamente e transferido para o site do GeoAnalytics Server onde você registrou os dados. O processo de gerar um manifesto nem sempre pode estimar os campos representando a geometria e o tempo corretamente e você pode precisar aplicar edições. Para editar um manifesto, siga as etapas em Ediar compartilhamentos de arquivo big data no Manager. Para aprender mais sobre o manifesto de compartilhamento do arquivo de grandes dados, consulte Entendendo o manifesto de compartilhamento do arquivo de grandes dados na ajuda do ArcGIS Server.

Executar a análise em um compartilhamento do arquivo de grandes dados

Você pode executar a análise em um conjunto de dados em um compartilhamento de arquivo big data por quaisquer clientes que suporte GeoAnalytics Server, que inclui o seguinte:

  • ArcGIS Pro
  • O visualizador de mapa do Portal for ArcGIS
  • ArcGIS REST API

Para executar sua análise em um compartilhamento do arquivo de grandes dados através do ArcGIS Pro ou visualizador de mapa do Portal for ArcGIS, selecione a GeoAnalytics Tools que deseja utilizar. Para a entrada da ferramenta, procure onde seus dados estão localizados no Portal no ArcGIS Pro ou na caixa de diálogo Procurar Camadas no visualizador de mapa do Portal for ArcGIS. Os dados estarão em Meu Conteúdo se você mesmo registrou os dados. Caso contrário, procure em seus Grupos ou Portal Inteiro. Note que uma camada de compartilhamento de arquivo big data selecionada para análise não será exibida no mapa.

Anotação:

Certifique-se de estar registrado em uma conta do portal com acesso ao compartilhamento do arquivo big data registrado. Você pode procurar seu portal com o termo bigDataFileShare* para localizar rapidamente todos os compartilhamentos do arquivo de grandes dados que você pode acessar.

Para executar a análise em um compartilhamento do arquivo de grandes dados através da API ArcGIS REST, utilize a URL de serviço do catálogo de grandes dados como a entrada. Isto estará no formato {"url":" https://webadaptorhost.domain.com/webadaptorname/rest/DataStoreCatalogs/bigDataFileShares_filesharename/BigDataCatalogServer/dataset"}. Por exemplo, com uma máquina denominada example, um domínio denominado esri, um Web Adaptor denominado server, um compartilhamento do arquivo de grandes dados denominado MyData, e um conjunto de dados denominado Earthquakes, a URL seria: {"url":" https://example.esri.com/server/rest/DataStoreCatalogs/bigDataFileShares_MyData/BigDataCatalogServer/Earthquakes"}. Para aprender mais sobre a entrada para análise de grandes dados através do REST, consulte o tópico Entrada de Feição na documentação do ArcGIS Services REST API.