Skip To Content

Начало работы с файловыми хранилищами больших данных

О файловых хранилищах больших данных

Файловое хранилище больших данных представляет собой созданный на портале элемент, который ссылается на данные местоположений, доступные на вашем ArcGIS GeoAnalytics Server. Расположение файлового хранилища больших данных может использоваться в качестве входных и выходных данных для векторных данных (точек, полилиний, полигонов и табличных данных) инструментов геоаналитики. При создании файлового хранилища больших данных генерируется элемент на вашем портале. Элемент указывает на сервис каталога больших данных, который описывает наборы данных в файловом хранилище больших данных и их схему, включая геометрию и информацию о времени, а также выходные форматы, называемые шаблонами, которые вы зарегистрировали. При использовании файлового хранилища больших данных в качестве входных данных в инструменте ArcGIS GeoAnalytics Server, вы можете указать путь к этому элементу и запустить анализ для набора данных.

Существует несколько причин, почему предпочтительнее использовать файловое хранилище больших данных. Вы можете хранить свои данные в доступном месте до тех пор, пока не будете готовы выполнить анализ. Файловое хранилище больших данных позволяет работать с данными во время выполнения анализа, поэтому вы можете продолжать добавлять данные в набор, находящийся в файловом хранилище больших данных, без необходимости перерегистрации или опубликования своих данных. Вы также можете изменить манифест, чтобы удалить, добавить или обновить наборы данных в файловом хранилище больших данных. Файловое хранилище больших данных отличается необычайной гибкостью с точки зрения определения геометрии и времени и допускает несколько форматов времени в отдельном наборе данных. Файловые хранилища больших данных позволяют разбивать наборы данных на разделы, сохраняя способность работы с несколькими такими разделами как с единым набором данных. Использование файлового хранилища больших данных для выходных данных позволяет хранить результаты в форматах, которые можно использовать для других рабочих процессов, таких как файл parquet для дальнейшего анализа или хранения.

Примечание:

Файловые хранилища больших данных становятся доступны только при запуске GeoAnalytics Tools. Это означает, что вы можете только просматривать и добавлять файлы больших данных в анализ; вы не можете визуализировать эти данные на карте.

Файловые хранилища больших данных могут ссылаться на следующие источники входных данных:

  • Файловое хранилище – директория наборов данных на локальном или сетевом диске.
  • Apache Hadoop Distributed File System (HDFS) – директория HDFS наборов данных.
  • Apache Hive – базы данных метахранилища Hive.
  • Облачное хранилище – Amazon Simple Storage Service (S3) контейнер, контейнер Blob-объектов Microsoft Azure или хранилище Microsoft Azure Data Lake, содержащее каталог наборов данных.

При записи результатов в общую папку с большими данными вы можете использовать следующие выходные данные GeoAnalytics Tools:

  • Файловое хранилище
  • HDFS
  • Облачное хранилище

Следующие типы файлов поддерживаются в качестве наборов входных и выходных данных в файловых хранилищах больших данных:

  • Файлы с разделителями (такие как .csv, .tsv и .txt)
  • Шейп-файлы (.shp)
  • Файлы Parquet (.gz.parquet)
  • Файлы ORC (orc.crc)

Примечание:

Файловое хранилище больших данных доступно, если администратор портала включил GeoAnalytics Server. Более подробно о включении GeoAnalytics Server см. в разделе Настройка ArcGIS GeoAnalytics Server.

Файловые хранилища больших данных являются одним из нескольких способов доступа GeoAnalytics Tools к вашим данным и не являются обязательными для GeoAnalytics Tools. См. Использование GeoAnalytics Tools в Map Viewer для получения списка возможных форматов входных и выходных данных GeoAnalytics Tools.

Вы можете зарегистрировать сколько угодно файловых хранилищ больших данных. В каждом из файловых хранилищ больших данных может быть любое количество наборов данных.

В таблице ниже приведены некоторые важные термины, относящиеся к файловым хранилищам больших данных.

ТерминОписание

Файловое хранилище больших данных

Расположение данных, зарегистрированное для вашего GeoAnalytics Server для использования в качестве входного, выходного или и входного, и выходного набора данных в инструментах геоаналитики.

Сервис каталога больших данных

Сервис, который описывает входные наборы данных и схемы, а также имена выходных шаблонов файлового хранилища больших данных. Он создается при регистрации файлового хранилища больших данных и создании манифеста.

Более подробно о сервисах каталога больших данных см. документацию Сервис каталога больших данных в Справке ArcGIS Services REST API.

Элемент файлового хранилища больших данных

Элемент портала, ссылающийся на сервис каталога больших данных. Вы можете управлять тем, кто может использовать ваше файловое хранилище больших данных в качестве входных данных для инструментов GeoAnalytics, настроив общий доступ к этому элементу на портале.

Манифест

Файл JSON, который описывает доступные наборы данных и схему для входных данных в вашем файловом хранилище больших данных. Манифест создается автоматически при регистрации файлового хранилища больших данных и может быть изменен путем редактирования или с помощью файла hints. Одно файловое хранилище больших данных имеет один манифест.

Выходные шаблоны

Один или несколько шаблонов, описывающих тип файла и необязательное форматирование при записи результатов в файловое хранилище больших данных. Например, шаблон может задать запись результатов в шейп-файл. Файловое хранилище больших данных может иметь один или несколько шаблонов, либо не иметь шаблонов.

Тип файлового хранилища больших данных

Тип расположений, которые вы регистрируете. Например, у вас может быть файловое хранилище больших данных или тип HDFS.

Формат файлового хранилища больших данных

Формат данных, которые вы читаете или записываете. Например, типом файла может быть шейп-файл.

Файл hints

Необязательный файл, который может применяться для создания манифеста для файлов с разделителями, используемых в качестве входных данных.

Подготовка данных для регистрации файлового хранилища больших данных

Чтобы использовать ваши наборы данных в качестве входных в файловом хранилище больших данных, убедитесь, что ваши данные корректного формата. См. информацию ниже о форматировании на основе типа файлового хранилища больших данных.

Файловые хранилища и HDFS

Чтобы подготовить данные для файлового хранилища больших данных необходимо представить наборы данных вложенными папками отдельной родительской папки, которая будет зарегистрирована. В этой регистрируемой родительской папке имена вложенных папок будут совпадать с именами наборов данных. Если эти вложенные папки будут содержать несколько подпапок или файлов, то все содержимое этих вложенных папок высшего уровня будет считаться отдельным набором данных, и к ним будет применяться та же схема. Ниже – пример, как зарегистрировать папку ,FileShareFolder в которой содержится три набора данных, имена которых Earthquakes, Hurricanes и GlobalOceans. При регистрации родительской папки все подкаталоги указанной папки также регистрируются на GeoAnalytics Server. Всегда регистрируйте родительскую папку (например, \\machinename\FileShareFolder), содержащую один или несколько подпапок отдельных наборов данных.

Пример файлового хранилища больших данных, в котором содержится три набора данных: Earthquakes, Hurricanes и GlobalOceans.

|---FileShareFolder                 < -- The top-level folder is what is registered as a big data file share
   |---Earthquakes                  < -- A dataset "Earthquakes", composed of 4 csvs with the same schema
      |---1960
         |---01_1960.csv
         |---02_1960.csv
      |---1961
         |---01_1961.csv
         |---02_1961.csv
   |---Hurricanes                   < -- The dataset "Hurricanes", composed of 3 shapefiles with the same schema
      |---atlantic_hur.shp
      |---pacific_hur.shp
      |---otherhurricanes.shp
   |---GlobalOceans                 < -- The dataset "GlobalOceans", composed of a single shapefile
      |---oceans.shp

Такая же структура используется в файловом хранилище и HDFS, хотя терминология отличается. В файловом хранилище имеется папка или каталог высшего уровня, а наборы данных представлены вложенными папками. В HDFS расположение файлового хранилища зарегистрировано и содержит наборы данных. В следующей таблице приводится описание различий:

Файловое хранилищеHDFS

Местоположение файлового хранилища больших данных

Папка или директория

Путь HDFS

Наборы данных

Вложенные папки высшего уровня

Наборы данных в пути HDFS

После того как данные будут организованы в виде папки с вложенными подпапками наборов данных, сделайте их доступными для GeoAnalytics Server, выполнив шаги, указанные в разделе Предоставление доступа к данным ArcGIS Server и зарегистрируйте папку набора данных.

Доступ к HDFS с помощью Kerberos

GeoAnalytics Server может обращаться к HDFS, используя аутентификацию Kerberos.

Примечание:

GeoAnalytics Server поддерживает защиту RCP, установленную на аутентификацию (hadoop.rpc.protection =authentication). GeoAnalytics Server в настоящее время не поддерживает режимы целостности (integrity) или частности (privacy).

Выполните следующие шаги, чтобы зарегистрировать файловое хранилище HDFS при помощи аутентификации Kerberos:

  1. В Windows скопируйте файл krb.ini в C:/windows/krb.ini на всех компьютерах вашего сайта GeoAnalytics Server. В Linux скопируйте файл krb.conf в /etc/krb.conf на всех компьютерах вашего сайта GeoAnalytics Server.
  2. Выполните вход на сайт GeoAnalytics Server из ArcGIS ServerArcGIS Server Administrator Directory.

    ArcGIS Server Administrator Directory требует выполнения входа в качестве администратора. Чтобы подключиться к интегрированному сайту GeoAnalytics Server, необходимо выполнить вход с помощью токена портала, что требует учетных данных администратора, или в качестве основного администратора сайта GeoAnalytics Server. Если вы не являетесь администратором портала или не имеете доступа к информации учетной записи основного администратора сайта, свяжитесь с администратором вашего портала, чтобы он выполнил эти шаги.

  3. Перейдите к data > registerItem.
  4. Скопируйте следующий текст и вставьте его в текстовое поле Элемент. Обновите следующие значения:

    • <bigDataFileShareName>: замените на имя для своего файлового хранилища больших данных.
    • <hdfs path>: замените на полный системный путь к файловому хранилищу больших данных, например, hdfs://domainname:port/folder.
    • <user@realm>: замените на имя пользователя и область участника.
    • <keytab location>: замените на местоположение файла keytab. Файл keytab должен быть доступен для всех компьютеров сайта GeoAnalytics Server, например, //shared/keytab/hadoop.keytab.

    {
       "path": "/bigDataFileShares/<bigDataFileShareName>",
       "type": "bigDataFileShare",
       "info": 
             {
              "connectionString": "{\"path\":\"<hdfs path>",\"accessMode\":\"Kerberos\",\"principal\":\"user@realm\",\"keytab\":\"<keytab location>\"}",
              "connectionType": "hdfs"
             }
    }
      
    

  5. Щелкните Зарегистрировать элемент.

    После того как элемент зарегистрирован, файловое хранилище больших данных появится в качестве хранилища данных в ArcGIS Server Manager, вместе с заполненным манифестом. Если манифест не заполнен, перейдите к шагу 5.

  6. Выполните вход на ваш сайт GeoAnalytics Server из ArcGIS Server Manager.

    Вы можете войти как издатель или как администратор.

  7. Перейдите к Сайт > Хранилища данных и щелкните кнопку Создать заново манифест рядом с новым файловым хранилищем больших данных.

Теперь у вас есть файловое хранилище больших данных и манифест для HDFS, к которому вы можете получить доступ при помощи аутентификации Kerberos. Элемент файлового хранилища больших данных на портале ссылается на сервис каталога больших данных в GeoAnalytics Server.

Hive

Примечание:

GeoAnalytics Server использует Spark 3.0.1. Hive должна быть версии 2.3.7 или 3.0.0–3.1.2.

Если вы тестируете и регистрируете файловое хранилище больших данных с Hive некорректной версии, зарегистрировать файловое хранилище больших данных не удастся. Если это произошло, перезапустите набор инструментов GeoAnalyticsManagement в ArcGIS Server Administrator Directory, > services > System > GeoAnalyticsManagement> stop. Повторите шаги для запуска.

В Hive все таблицы в базе данных признаются в качестве наборов данных в файловом хранилище больших данных. В следующем примере показано метахранилище с двумя базами данных, default и CityData. При регистрации файлового хранилища больших данных Hive через ArcGIS Server на GeoAnalytics Server, можно выбрать только одну базу данных. В этом примере, если бы была выбрана база данных CityData, то в файловом хранилище больших данных было бы два набора данных, FireData и LandParcels.

|---HiveMetastore                 < -- The top-level folder is what is registered as a big data file share
   |---default                    < -- A database
      |---Earthquakes
      |---Hurricanes
      |---GlobalOceans
   |---CityData				               < -- A database that is registered (specified in Server Manager)
      |---FireData
      |---LandParcels

Облачные хранилища

Далее приведены три шага для регистрации файлового хранилища больших данных, имеющего тип облачного хранилища.

Подготовка ваших данных

Чтобы подготовить данные для файлового хранилища больших данных в облачном хранилище, отформатируйте ваши наборы данных, как вложенные папки внутри отдельной родительской папки.

Ниже приводится пример возможной структуры ваших данных. В данном примере показана регистрация родительской папки, FileShareFolder, в которой содержится три набора данных с именами Earthquakes, Hurricanes и GlobalOceans. При регистрации родительской папки все подкаталоги указанной папки также регистрируются на GeoAnalytics Server.

Пример структурирования данных в облачном хранилище, которое будет использоваться в качестве файлового хранилища больших данных. Это файловое хранилище больших данных содержит три набора данных: Earthquakes, Hurricanes и GlobalOceans.

|---Cloud Store                          < -- The cloud store being registered
   |---Container or S3 Bucket Name       < -- The container (Azure) or bucket (Amazon) being registered as part of the cloud store
      |---FileShareFolder                < -- The parent folder that is registered as the 'folder' during cloud store registration
         |---Earthquakes                 < -- The dataset "Earthquakes", composed of 4 csvs with the same schema
            |---1960
               |---01_1960.csv
               |---02_1960.csv
            |---1961
               |---01_1961.csv
               |---02_1961.csv
         |---Hurricanes                  < -- The dataset "Hurricanes", composed of 3 shapefiles with the same schema
            |---atlantic_hur.shp
            |---pacific_hur.shp
            |---otherhurricanes.shp
         |---GlobalOceans                < -- The dataset "GlobalOceans", composed of 1 shapefile
            |---oceans.shp

Регистрация облачного хранилища на GeoAnalytics Server

Подключитесь к своему сайту GeoAnalytics Server из ArcGIS Server Manager для регистрации облачного хранилища. Когда вы регистрируете облачное хранилище, необходимо включить имя контейнера Azure, имя корзины Amazon S3 или имя хранилища Azure Data Lake. Рекомендуется также дополнительно указать папку в контейнере или сегменте. Указанная папка состоит из вложенных папок, и каждая представлена, как отдельный набор данных. Каждый набор данных состоит из всего содержания вложенной папки.

Регистрация облачного хранилища в качестве файлового хранилища больших данных

Следуйте приведенным шагам для регистрации облачного хранилища, которое вы создали в предыдущем разделе, в качестве файлового хранилища больших данных:

  1. Выполните вход на сайт GeoAnalytics Server из ArcGIS Server Manager.

    Вы можете войти как издатель или как администратор.

  2. Перейдите к Сайт > Хранилища данных и выберите Файловое хранилище больших данных из ниспадающего списка Зарегистрировать.
  3. Предоставьте следующую информацию в диалоговом окне Зарегистрировать файловое хранилище больших данных:
    1. Введите имя файлового хранилища больших данных.
    2. Выберите Облачное хранилище в ниспадающем списке Тип.
    3. Выберите имя вашего облачного хранилища данных в ниспадающем списке Облачное хранилище.
    4. Щелкните Создать, чтобы зарегистрировать ваше облачное хранилище в качестве файлового хранилища больших данных.

Теперь у вас есть файловое хранилище больших данных и манифест для облачного хранилища . Элемент файлового хранилища больших данных на портале ссылается на сервис каталога больших данных в GeoAnalytics Server.

Регистрация файлового хранилища больших данных

Чтобы зарегистрировать файловое хранилище, HDFS или облачное хранилище Hive в качестве файлового хранилища больших данных, подключитесь к сайту GeoAnalytics Server через ArcGIS Server Manager. Более подробно о необходимых для регистрации действиях см. Регистрация данных в ArcGIS Server с помощью Manager в ArcGIS Server.

Подсказка:

Шаги для регистрации облачного хранилища в качестве файлового хранилища больших данных были приведены в предыдущем разделе.

После регистрации файлового хранилища больших данных будет сгенерирован манифест, в котором указывается формат наборов данных в местоположении этого хранилища и в том числе поля, представляющие геометрию и время. Если вы дополнительно выбрали регистрацию файлового хранилища больших данных в качестве расположения выходных данных, выходной шаблон манифеста также автоматически создается. Файловое хранилище больших данных создается на портале, который ссылается на сервис каталога больших данных в GeoAnalytics Server, где эти данные зарегистрированы. Более подробно о сервисах каталога больших данных см. документацию Сервис каталога больших данных в Справке ArcGIS Services REST API.

Изменение файлового хранилища больших данных

После создания сервиса каталога больших данных автоматически генерируется манифест для входных данных, который загружается на сайт GeoAnalytics Server, где эти данные зарегистрированы. В процессе генерации манифеста в наборе данных не всегда правильно определяются поля геометрии и времени, может потребоваться корректировка. Для внесения изменений в манифест выполните шаги из раздела Редактирование манифестов файловых хранилищ больших данных в Manager. Дополнительные сведения о манифесте файлового хранилища больших данных см. в разделе Знакомство с манифестом файлового хранилища больших данных в Справке ArcGIS Server.

Изменение выходных шаблонов для файлового хранилища больших данных

Если вы решили использовать файловое хранилище больших данных в качестве расположения выходных данных, автоматически создаются выходные шаблоны. Эти шаблоны описывают форматирование выходных результатов анализа, и задают, например, тип файла, а также способ регистрации времени и геометрии. Если вы хотите изменить геометрию или форматирование времени, добавить или удалить шаблоны, вы можете изменить шаблоны. Для внесения изменений в выходные шаблоны выполните шаги из раздела Редактирование манифестов файловых хранилищ больших данных в Manager. Более подробно о выходных шаблонах см. в разделе Выходные шаблоны в файловых хранилищах больших данных.

Выполнение анализа на файловом хранилище больших данных

Выполнение анализа набора данных из файлового хранилища больших данных возможно через любой клиент, который поддерживает GeoAnalytics Server, включая:

  • ArcGIS Pro
  • Map Viewer
  • ArcGIS REST API
  • ArcGIS API for Python

Для выполнения анализа на файловом хранилище больших данных с помощью ArcGIS Pro или Map Viewer выберите GeoAnalytics Tools, который вы хотели бы использовать. Перейдите к месту расположения данных, которые будут использоваться в качестве входных для этого инструмента, в разделе Портал в ArcGIS Pro или в диалоговом окне Обзор слоев в Map Viewer. Данные будут в Мои ресурсы, если вы сами регистрировали эти данные. Если не сами, то проверьте Группы или Весь портал. Примите к сведению, что слой файлового хранилища больших данных, который выбран для анализа, не будет отображаться на карте.

Примечание:

Убедитесь, что вы выполнили вход на портал под учетной записью с доступом к зарегистрированному файловому хранилищу больших данных. Чтобы быстро найти все доступные для вас файловые хранилища больших данных выполните поиск на портале по условию bigDataFileShare*.

Для выполнения анализа на файловом хранилище больших данных посредством ArcGIS REST API используйте в качестве входных данных URL-адрес сервиса каталога больших данных. URL-адрес будет иметь формат {"url":" https://webadaptorhost.domain.com/webadaptorname/rest/DataStoreCatalogs/bigDataFileShares_filesharename/BigDataCatalogServer/dataset"}. Например, если имя компьютера – example, имя домена – esri, имя Web Adaptor – server, имя файлового хранилища больших данных – MyData, а имя набора данных – Earthquakes, то URL-адрес будет {"url":" https://example.esri.com/server/rest/DataStoreCatalogs/bigDataFileShares_MyData/BigDataCatalogServer/Earthquakes"}. Более подробно о вводе данных для анализа больших данных посредством REST, см. раздел Ввод объектов в документации ArcGIS Services REST API.

Сохранение результатов в файловое хранилище больших данных

Вы можете запустить анализ для набора данных (из файлового хранилища больших данных или другого источника) и сохранить его результаты в файловое хранилище больших данных. Если вы сохраняете результаты в файловое хранилище больших данных, вы не сможете их визуализировать. Вы можете сделать это, используя следующие клиенты:

  • Map Viewer
  • ArcGIS REST API
  • ArcGIS API for Python

Когда вы записываете результаты в файловое хранилище больших данных, обновляется входной манифест, и в него включается набор данных, который вы только что сохранили. Результаты, записанные в файловое хранилище больших данных, теперь доступны в качестве входных данных для другого инструмента.