Skip To Content

Начало работы с файловыми хранилищами больших данных

Примечание:

В версии 10.9.1 или позднее зарегистрируйте файловое хранилище больших данных через страницу Ресурсы вашего портала. Это рекомендуемый способ регистрации файловых хранилищ больших данных. Используйте только Server Manager для редактирования, если файловое хранилище больших данных было создано в Server Manager, и вы не заменили его файловым хранилищем больших данных на портале.

Файловое хранилище больших данных представляет собой созданный на портале элемент, который ссылается на данные местоположений, доступные на вашем ArcGIS GeoAnalytics Server. Расположение файлового хранилища больших данных может использоваться в качестве входных и выходных данных для векторных данных (точек, полилиний, полигонов и табличных данных) инструментов геоаналитики. Когда вы создаете файловое хранилище больших данных через страницу ресурсов вашего портала, на вашем портале создаются как минимум два элемента:

  • Элемент хранилища данных (файловое хранилище больших данных)
  • Элемент файлового хранилища больших данных
  • Элемент хранилища данных (местоположение облачного хранилища), если вы регистрируете облачное хранилище для файлового хранилища больших данных
Элемент файлового хранилища больших данных указывает на сервис каталога больших данных, который описывает наборы данных в файловом хранилище больших данных и их схему, включая информацию о геометрии и времени, а также зарегистрированные вами форматы выхода, называемые шаблонами. При использовании файлового хранилища больших данных в качестве входных данных в инструменте ArcGIS GeoAnalytics Server вы можете перейти к элементу файлового хранилища больших данных, чтобы выполнить анализ набора данных.

Примечание:

Файловое хранилище больших данных доступно только в том случае, если администратор портала включил GeoAnalytics Server. Более подробно о включении GeoAnalytics Server см. в разделе Настройка ArcGIS GeoAnalytics Server.

Файловые хранилища больших данных

Существует несколько причин, почему предпочтительнее использовать файловое хранилище больших данных:

  • Вы можете хранить свои данные в доступном месте до тех пор, пока не будете готовы выполнить анализ. Файловое хранилище больших данных позволяет работать с данными во время выполнения анализа, поэтому вы можете продолжать добавлять данные в набор, находящийся в файловом хранилище больших данных, без необходимости перерегистрации или опубликования своих данных.
  • Вы также можете изменить манифест, чтобы удалить, добавить или обновить наборы данных в файловом хранилище больших данных.
  • Файловое хранилище больших данных отличается необычайной гибкостью с точки зрения определения геометрии и времени и допускает несколько форматов времени в отдельном наборе данных.
  • Файловые хранилища больших данных позволяют разбивать наборы данных на разделы, сохраняя способность работы с несколькими такими разделами как с единым набором данных.
  • Использование файлового хранилища больших данных для выходных данных позволяет хранить результаты в форматах, которые можно использовать для других рабочих процессов, таких как файл parquet для дальнейшего анализа или хранения.

Примечание:

Файловые хранилища больших данных становятся доступны только при запуске GeoAnalytics Tools. Это означает, что вы можете только просматривать и добавлять файлы больших данных в анализ; вы не можете визуализировать эти данные на карте.

Файловые хранилища больших данных могут ссылаться на следующие источники входных данных:

  • Файловое хранилище – директория наборов данных на локальном или сетевом диске.
  • Apache Hadoop Distributed File System (HDFS) – директория HDFS наборов данных.
  • Apache Hive – базы данных метахранилища Hive.
  • Облачное хранилище – Amazon Simple Storage Service (S3) контейнер, контейнер Microsoft Azure Blob-объектов или хранилище Microsoft Azure Data Lake Storage, содержащее каталог наборов данных.

При записи результатов в файловое хранилище больших данных вы можете использовать следующие выходные данные для GeoAnalytics Tools:

  • Файловое хранилище
  • HDFS
  • Место облачного хранилища

Следующие типы файлов поддерживаются в качестве наборов входных и выходных данных в файловых хранилищах больших данных:

  • Файлы с разделителями (такие как .csv, .tsv и .txt)
  • Шейп-файлы (.shp)
  • Файлы Parquet (.parquet)
    Примечание:

    Поддерживаются только зашифрованные файлы Parquet.

  • Файлы ORC (.orc)

Файловые хранилища больших данных являются одним из нескольких способов доступа GeoAnalytics Tools к вашим данным и не являются обязательными для GeoAnalytics Tools. См. Использование GeoAnalytics Tools в Map Viewer Classic для получения списка возможных форматов входных и выходных данных GeoAnalytics Tools.

Вы можете зарегистрировать сколько угодно файловых хранилищ больших данных. В каждом из файловых хранилищ больших данных может быть любое количество наборов данных. См. Добавление файлового хранилища больших данных, чтобы узнать, как зарегистрировать его на сайте GeoAnalytics Server.

В таблице ниже приведены некоторые важные термины, относящиеся к файловым хранилищам больших данных.

ТерминОписание

Файловое хранилище больших данных

Расположение данных, зарегистрированное для вашего GeoAnalytics Server для использования в качестве входного, выходного или и входного, и выходного набора данных в GeoAnalytics Tools.

Сервис каталога больших данных

Сервис, который описывает входные наборы данных и схемы, а также имена выходных шаблонов файлового хранилища больших данных. Он создается при регистрации файлового хранилища больших данных и создании манифеста.

Более подробно о сервисах каталога больших данных см. документацию Сервис каталога больших данных в Справке ArcGIS Services REST API.

Элемент файлового хранилища больших данных

Элемент портала, ссылающийся на сервис каталога больших данных. Вы можете управлять тем, кто может использовать ваше файловое хранилище больших данных в качестве входных данных для инструментов GeoAnalytics, настроив общий доступ к этому элементу на портале.

Манифест

Файл JSON, который описывает доступные наборы данных и схему для входных данных в вашем файловом хранилище больших данных. Манифест создается автоматически при регистрации файлового хранилища больших данных и может быть изменен путем редактирования или с помощью файла hints. Одно файловое хранилище больших данных имеет один манифест.

Выходные шаблоны

Один или несколько шаблонов, описывающих тип файла и необязательное форматирование при записи результатов в файловое хранилище больших данных. Например, шаблон может задать запись результатов в шейп-файл. Файловое хранилище больших данных может иметь один или несколько шаблонов, либо не иметь шаблонов.

Тип файлового хранилища больших данных

Тип расположений, которые вы регистрируете. Например, у вас может быть файловое хранилище больших данных или тип HDFS.

Формат файлового хранилища больших данных

Формат данных, которые вы читаете или записываете. Например, типом файла может быть шейп-файл.

Файл hints

Необязательный файл, который может применяться для создания манифеста для файлов с разделителями, используемых в качестве входных данных.

Подготовка данных для регистрации файлового хранилища больших данных

Чтобы использовать ваши наборы данных в качестве входных в файловом хранилище больших данных, убедитесь, что ваши данные корректно отформатированы. См. информацию ниже о форматировании на основе типа файлового хранилища больших данных.

Файловые хранилища и HDFS

Чтобы подготовить данные для файлового хранилища больших данных необходимо представить наборы данных вложенными папками отдельной родительской папки, которая будет зарегистрирована. В этой регистрируемой родительской папке имена вложенных папок будут совпадать с именами наборов данных. Если эти вложенные папки будут содержать несколько подпапок или файлов, то все содержимое этих вложенных папок высшего уровня будет считаться отдельным набором данных, и к ним будет применяться та же схема. Ниже – пример, как зарегистрировать папку ,FileShareFolder в которой содержится три набора данных, имена которых Earthquakes, Hurricanes и GlobalOceans. При регистрации родительской папки все подкаталоги указанной папки также регистрируются на GeoAnalytics Server. Всегда регистрируйте родительскую папку (например, \\machinename\FileShareFolder), содержащую один или несколько подпапок отдельных наборов данных.

Пример файлового хранилища больших данных, в котором содержится три набора данных: Earthquakes, Hurricanes и GlobalOceans.


|---FileShareFolder                 < -- The top-level folder is what is registered as a big data file share
   |---Earthquakes                  < -- A dataset "Earthquakes", composed of 4 csvs with the same schema
      |---1960
         |---01_1960.csv
         |---02_1960.csv
      |---1961
         |---01_1961.csv
         |---02_1961.csv
   |---Hurricanes                   < -- The dataset "Hurricanes", composed of 3 shapefiles with the same schema
      |---atlantic_hur.shp
      |---pacific_hur.shp
      |---otherhurricanes.shp
   |---GlobalOceans                 < -- The dataset "GlobalOceans", composed of a single shapefile
      |---oceans.shp

Такая же структура используется в файловом хранилище и HDFS, хотя терминология отличается. В файловом хранилище имеется папка или каталог высшего уровня, а наборы данных представлены вложенными папками. В HDFS расположение файлового хранилища зарегистрировано и содержит наборы данных. В следующей таблице приводится описание различий:

Файловое хранилищеHDFS

Местоположение файлового хранилища больших данных

Папка или директория

Путь HDFS

Наборы данных

Вложенные папки высшего уровня

Наборы данных в пути HDFS

После того как данные будут организованы в виде папки с вложенными подпапками наборов данных, сделайте их доступными для GeoAnalytics Server, выполнив действия, указанные в разделе Предоставление доступа к данным ArcGIS Server, и зарегистрируйте папку набора данных или путь HDFS через портал.

Hive

В Hive все таблицы в базе данных признаются в качестве наборов данных в файловом хранилище больших данных. В следующем примере показано метахранилище с двумя базами данных, default и CityData. При регистрации файлового хранилища больших данных Hive можно выбрать только одну базу данных. В этом примере, если бы была выбрана база данных CityData, то в файловом хранилище больших данных было бы два набора данных, FireData и LandParcels.


|---HiveMetastore                 < -- The top-level folder is what is registered as a big data file share
   |---default                    < -- A database
      |---Earthquakes
      |---Hurricanes
      |---GlobalOceans
   |---CityData				            < -- A database that is registered (specified in Server Manager)
      |---FireData
      |---LandParcels

Хранилища данных облачного хранилища

Чтобы подготовить данные для файлового хранилища больших данных в местоположении облачного хранилища, отформатируйте ваши наборы данных, как вложенные папки внутри отдельной родительской папки.

Ниже приводится пример возможной структуры ваших данных. В данном примере показана регистрация родительской папки, FileShareFolder, в которой содержится три набора данных с именами Earthquakes, Hurricanes и GlobalOceans. При регистрации родительской папки все подкаталоги указанной папки также регистрируются на GeoAnalytics Server.

Пример структурирования данных в местоположении облачного хранилища, которое будет использоваться в качестве файлового хранилища больших данных. Это файловое хранилище больших данных содержит три набора данных: Earthquakes, Hurricanes и GlobalOceans.


|---Cloud Store                          < -- The cloud storage location being registered
   |---Container or S3 Bucket Name       < -- The container (Azure) or bucket (Amazon) being registered as part of the cloud storage data store
      |---FileShareFolder                < -- The parent folder that is registered as the 'folder' during cloud storage registration
         |---Earthquakes                 < -- The dataset "Earthquakes", composed of 4 csvs with the same schema
            |---1960
               |---01_1960.csv
               |---02_1960.csv
            |---1961
               |---01_1961.csv
               |---02_1961.csv
         |---Hurricanes                  < -- The dataset "Hurricanes", composed of 3 shapefiles with the same schema
            |---atlantic_hur.shp
            |---pacific_hur.shp
            |---otherhurricanes.shp
         |---GlobalOceans                < -- The dataset "GlobalOceans", composed of 1 shapefile
            |---oceans.shp

Управление файловыми хранилищами больших данных на портале

Создав файловое хранилище больших данных, вы можете изучить содержащиеся в нем наборы данных и шаблоны, описывающие, как будут записаны результаты, сохраненные в файловых хранилищах больших данных.

Изменение файлового хранилища больших данных

При создании элемента файлового хранилища больших данных автоматически создается и загружается манифест для входных данных. В процессе генерации манифеста в наборе данных не всегда правильно определяются поля геометрии и времени, может потребоваться корректировка. Чтобы отредактировать манифест и представление наборов данных, выполните действия, описанные в разделе Редактирование файловых хранилищ больших данных. Дополнительные сведения о манифесте файлового хранилища больших данных см. в разделе Манифест файлового хранилища больших данных справки ArcGIS Server.

Если вы создали файловое хранилище больших данных в ArcGIS Server в Manager, выполните действия, описанные в разделе Редактирование манифестов файловых хранилищ больших данных в Server Manager.

Изменение выходных шаблонов для файлового хранилища больших данных

Если вы решили использовать файловое хранилище больших данных в качестве расположения выходных данных, автоматически создаются выходные шаблоны. Эти шаблоны описывают форматирование выходных результатов анализа, и задают, например, тип файла, а также способ регистрации времени и геометрии. Если вы хотите изменить геометрию или форматирование времени, добавить или удалить шаблоны, вы можете изменить шаблоны. Для внесения изменений в выходные шаблоны выполните действия, перечисленные в разделе Создание, редактирование и просмотр выходных шаблонов. Более подробно о выходных шаблонах см. в разделе Выходные шаблоны в файловых хранилищах больших данных.

Если вы создали файловое хранилище больших данных в ArcGIS Server в Manager, выполните действия, описанные в разделе Редактирование манифестов файловых хранилищ больших данных в Server Manager.

Перенос файловых хранилищ больших данных, созданных в Server Manager, на портал

Файловые хранилища больших данных, созданные на портале, имеют много преимуществ по сравнению с файловыми хранилищами больших данных, созданными в Server Manager, например:

  • Улучшенный пользовательский интерфейс, упрощающий редактирование наборов данных.
  • Упрощенный вариант регистрации файловых хранилищ больших данных.
  • Элементы сохраняются и публикуются под учетными данными портала

Рекомендуется создать элемент хранилища данных для файловых ресурсов больших данных, созданных в Server Manager. В ряде случаев это является обязательным. В следующих случаях нужно перенести файловое хранилище больших данных, чтобы оно стало элементами хранилищ данных, на портал, чтобы продолжить их использование:

  • Файловые хранилища больших данных, основанные на облачном хранилище Microsoft Azure Data Lake Storage Gen1.

Для переноса файлового хранилища больших данных, созданных в Server Manager, в элемент портала хранилища данных убедитесь в наличии следующей информации:

  • Учетные данные и расположение настроенного вами файлового хранилища больших данных.
  • Если это возможно, учетные данные и расположение файла настроенного вами облачного хранилища данных.
Если вы знаете учетные данные, выполните следующие действия:

  1. Выполните вход в Server Manager на вашем сайте GeoAnalytics Server.
  2. Щелкните Сайт > Хранилища данных. Щелкните кнопку редактирования на файловом хранилище больших данных, которое вы будете переносить.
  3. Выберите Расширенный > Манифест. Щелкните кнопку Загрузить, чтобы сохранить манифест.
  4. Если у вас есть подсказки, выполните следующие действия для получения подсказки. Щелкните ПодсказкиЗагрузить, чтобы сохранить ваш файл подсказок. Переименуйте расширение файла с .dat на .txt.txt.
  5. Если у вас в разделе РасширенныйМанифест есть выходные шаблоны, скопируйте текст и сохраните его в текстовом файле.
  6. Создайте файловое хранилище больших данных на странице Ресурсы портала, используя те же входные тип и расположение, что и ранее.

    Если у вас нет учетных данных, ваш администратор может найти их в Server Administrator, используя decrypt=true файлового хранилища больших данных и элементы облачного хранилища.

    Выполните действия, описанные в разделе Добавление элемента хранилища данных, используя те же учетные данные и расположение, что и имеющееся файловое хранилище больших данных.

  7. После создания хранилища больших данных нажмите Наборы данных и включите параметр Показать дополнительные возможности.
  8. Загрузите сохраненный ранее манифест, щелкнув в разделе манифеста Загрузить. Найдите ранее сохраненный файл JSON манифеста и щелкните Загрузить. Щелкните кнопку Синхронизация, чтобы вступили в силу изменения.
  9. Если у вас есть файл подсказок для загрузки, выполните те же действия и загрузите файл подсказок с помощью опции Показать расширенные возможности > Подсказки > Загрузить. Щелкните кнопку Синхронизация, чтобы вступили в силу изменения.
  10. Для загрузки выходных шаблонов выполните следующее:

Теперь на вашем портале есть файловое хранилище больших данных и манифест для элемента файлового хранилище больших данных. Вы можете обновить свои рабочие процессы, чтобы использовать и указывать файловое хранилище больших данных. Когда вы убедитесь в том, что оно работает должным образом, удалите исходное файловое хранилище больших данных в Server Manager.

Выполнение анализа на файловом хранилище больших данных

Выполнение анализа набора данных из файлового хранилища больших данных возможно через любой клиент, который поддерживает GeoAnalytics Server, включая:

  • ArcGIS Pro
  • Map Viewer Classic
  • ArcGIS REST API
  • ArcGIS API for Python

Для выполнения анализа на файловом хранилище больших данных с помощью ArcGIS Pro или Map Viewer Classic выберите GeoAnalytics Tools, который вы хотели бы использовать. Перейдите к месту расположения данных, которые будут использоваться в качестве входных для этого инструмента, в разделе Портал в ArcGIS Pro или в диалоговом окне Обзор слоев в Map Viewer Classic. Данные будут в Мои ресурсы, если вы сами регистрировали эти данные. Если не сами, то проверьте Группы или Весь портал. Примите к сведению, что слой файлового хранилища больших данных, который выбран для анализа, не будет отображаться на карте.

Примечание:

Убедитесь, что вы выполнили вход на портал под учетной записью с доступом к зарегистрированному файловому хранилищу больших данных. Чтобы быстро найти все доступные для вас файловые хранилища больших данных выполните поиск на портале по условию bigDataFileShare*.

Для выполнения анализа на файловом хранилище больших данных посредством ArcGIS REST API используйте в качестве входных данных URL-адрес сервиса каталога больших данных. Если вы создали файловое хранилище больших данных на портале, формат URL будет {"url":" https://webadaptorhost.domain.com/webadaptorname/rest/DataStoreCatalogs/bigDataFileShares_filesharename/"}. Например, с именем компьютера example, именем домена esri, именем веб-адаптера server, именем файлового хранилища больших данных MyData и набором данных с именем Earthquakes URL-адрес будет: {"url":" https://example.esri.com/server/rest/DataStoreCatalogs/bigDataFileShares_MyData/Earthquakes_uniqueID"}. Если вы создали файловое хранилище больших данных в Server Manager, формат URL будет {"url":"https://webadaptorhost.domain.com/webadaptorname/rest/DataStoreCatalogs/bigDataFileShares_filesharename/BigDataCatalogServer/dataset"}.

Более подробно о вводе данных для анализа больших данных посредством REST, см. раздел Входные данные объектов в документации ArcGIS Services REST API.

Сохранение результатов в файловое хранилище больших данных

Вы можете запустить анализ для набора данных (из файлового хранилища больших данных или другого источника) и сохранить его результаты в файловое хранилище больших данных. Вы можете сделать это, используя следующие клиенты:

  • Map Viewer Classic
  • ArcGIS REST API
  • ArcGIS API for Python

Когда вы записываете результаты в файловое хранилище больших данных, обновляется входной манифест, и в него включается набор данных, который вы только что сохранили. Результаты, записанные в файловое хранилище больших данных, теперь доступны в качестве входных данных для другого инструмента. Когда вы сохраняете результаты в файловом хранилище больших данных, вы не можете их визуализировать.