О файловых хранилищах больших данных
Файловое хранилище больших данных представляет собой созданный на портале элемент, который ссылается на данные объектов (точки, полилинии, полигоны или табличные данные) в местоположении, доступном для ArcGIS GeoAnalytics Server. Элемент файлового хранилища больших данных на портале позволяет просматривать зарегистрированные данные с помощью инструментов ArcGIS GeoAnalytics Server. Файловые хранилища больших данных могут ссылаться на следующие источники данных:
- Файловое хранилище – директория наборов данных на локальном или сетевом диске.
- HDFS – каталог наборов данных HDFS (Apache Hadoop Distributed File System).
- Hive – базы данных мета-хранилища Apache Hive.
- Облачное хранилище – корзина Amazon Simple Storage Service (S3), контейнер Microsoft Azure Blob или Microsoft Azure Data Lake Store с директорией наборов данных.
Примечание:
Поддержка для Microsoft Azure Data Lake Store добавлена в ArcGIS Enterprise 10.6.1.
Примечание:
Файловое хранилище больших данных доступно, если администратор портала включил GeoAnalytics Server. Подробнее о включении GeoAnalytics Server см. в разделе Настройка ArcGIS GeoAnalytics Server.
Существует несколько причин, почему предпочтительнее использовать файловое хранилище больших данных, общее для всех источников данных. Вы можете хранить свои данные в доступном месте до тех пор, пока не будете готовы выполнить анализ. Файловое хранилище больших данных позволяет работать с данными во время выполнения анализа, поэтому вы можете продолжать добавлять данные в набор, находящийся в файловом хранилище больших данных, без необходимости перерегистрации или опубликования своих данных. Вы также можете изменить манифест, чтобы удалить, добавить или обновить наборы данных в файловом хранилище больших данных. Файловое хранилище больших данных отличается необычайной гибкостью с точки зрения определения геометрии и времени и допускает несколько форматов времени в отдельном наборе данных. Файловые хранилища больших данных позволяют разбивать наборы данных на разделы, сохраняя способность работы с несколькими такими разделами как с единым набором данных.
Примечание:
Файловые хранилища больших данных становятся доступны только при запуске Инструменты геоаналитики. Это означает, что вы можете только просматривать и добавлять файлы больших данных в анализ; вы не можете визуализировать эти данные на карте.
Файловые хранилища больших данных являются одним из нескольких доступа Инструменты геоаналитики к вашим данным. Раздел Использование Инструменты геоаналитики в Map Viewer содержит перечень возможных форматов входных данных Инструменты геоаналитики.
Следующие типы файлов поддерживаются в качестве наборов данных в файловых хранилищах больших данных:
- Файлы с разделителями (такие как .csv, .tsv и .txt)
- Шейп-файлы (.shp)
- Файлы Parquet (.gz.parquet)
- Файлы ORC (orc.crc)
Подготовка данных для регистрации файлового хранилища больших данных
Файловые хранилища и HDFS
Чтобы подготовить данные для файлового хранилища больших данных необходимо представить наборы данных вложенными папками отдельной родительской папки, которая будет зарегистрирована. В этой регистрируемой родительской папке имена вложенных папок будут совпадать с именами наборов данных. Если эти вложенные папки будут содержать несколько подпапок или файлов, то все содержимое этих вложенных папок высшего уровня будет считаться отдельным набором данных, и к ним будет применяться та же схема. Ниже – пример, как зарегистрировать папку FileShareFolder, в которой содержится три набора данных, имена которых Earthquakes, Hurricanes и GlobalOceans. При регистрации родительской папки все подкаталоги указанной папки также регистрируются на сервере GeoAnalytics Server. Всегда регистрируйте родительскую папку (например, \\machinename\FileShareFolder), содержащую один или несколько подпапок отдельных наборов данных.
Пример файлового хранилища больших данных, в котором содержится три набора данных: Earthquakes, Hurricanes и GlobalOceans.|---FileShareFolder < -- The top-level folder is what is registered as a big data file share
|---Earthquakes < -- A dataset "Earthquakes", composed of 4 csvs with the same schema
|---1960
|---01_1960.csv
|---02_1960.csv
|---1961
|---01_1961.csv
|---02_1961.csv
|---Hurricanes < -- The dataset "Hurricanes", composed of 3 shapefiles with the same schema
|---atlantic_hur.shp
|---pacific_hur.shp
|---otherhurricanes.shp
|---GlobalOceans < -- The dataset "GlobalOceans", composed of a single shapefile
|---oceans.shp
Такая же структура используется в файловом хранилище и HDFS, хотя терминология отличается. В файловом хранилище имеется папка или каталог высшего уровня, а наборы данных представлены вложенными папками. В HDFS местоположение файлового хранилища зарегистрировано и содержит наборы данных. В следующей таблице приводится описание различий:
Файловое хранилище | HDFS | |
---|---|---|
Местоположение файлового хранилища больших данных | Папка или директория | HDFS-путь |
Наборы данных | Вложенные папки высшего уровня | Наборы данных в HDFS-пути |
После того как данные будут организованы в виде папки с вложенными подпапками наборов данных, сделайте их доступными для GeoAnalytics Server, выполнив шаги, указанные в разделе Предоставление доступа к данным ArcGIS Server и зарегистрируйте папку набора данных.
Доступ к HDFS с помощью Kerberos
В ArcGIS Enterprise 10.6.1 GeoAnalytics Server может получать доступ к HDFS при помощи аутентификации Kerberos.
Выполните следующие шаги, чтобы зарегистрировать файлообменник HDFS при помощи аутентификации Kerberos:
- Выполните вход на ваш сайт GeoAnalytics Server из ArcGIS Server Administrator Directory.
ArcGIS Server Administrator Directory требует выполнения входа в качестве администратора. Чтобы подключиться к интегрированному сайту GeoAnalytics Server, необходимо выполнить вход с помощью токена портала, что требует учетных данных администратора, или в качестве основного администратора сайта GeoAnalytics Server. Если вы не являетесь администратором портала или не имеете доступа к информации учетной записи основного администратора сайта, свяжитесь с администратором вашего портала, чтобы он выполнил эти шаги.
- Перейдите к data > registerItem.
- Скопируйте следующий текст и вставьте его в текстовое поле Элемент. Обновите следующие значения:
- <bigDataFileShareName>: Замените на имя для своего файлообменника больших данных.
- <hdfs path>: Замените на полный системный путь к файловому хранилищу больших данных, например, hdfs://domainname:port/folder.
- <user@realm>: Замените на имя пользователя и область принципала.
- <keytab location>: Замените на местоположение файла keytab. Файл keytab должен быть доступен для всех компьютеров сайта GeoAnalytics Server, например, //shared/keytab/hadoop.keytab.
{ "path": "/bigDataFileShares/<bigDataFileShareName>", "type": "bigDataFileShare", "info": { "connectionString": "{\"path\":\"<hdfs path>",\"accessMode\":\"Kerberos\",\"principal\":\"user@realm\",\"keytab\":\"<keytab location>\"}", "connectionType": "hdfs" } }
- Щелкните Зарегистрировать элемент.
После того, как элемент зарегистрирован, файловое хранилище больших данных появится в качестве хранилища данных в ArcGIS Server Manager с заполненным манифестом. Если манифест не заполнен, перейдите к шагу 5.
- Выполните вход на ваш сайт GeoAnalytics Server ArcGIS Server Manager.
Вы можете войти как издатель или как администратор.
- Перейдите к Сайт > Хранилища данных и щелкните кнопку Создать заново манифест рядом с новым файловым хранилищем больших данных.
Теперь у вас есть файловое хранилище больших данных и манифест для HDFS, к которому вы можете получить доступ при помощи аутентификации Kerberos. Элемент файлового хранилища больших данных на портале ссылается на сервис каталога больших данных в GeoAnalytics Server.
Корневая ветвь реестра
В Hive – базе данных метахранилища все таблицы в базе данных признаются в качестве наборов данных в файловом хранилище больших данных. В следующем примере показано метахранилище с двумя базами данных, default и CityData. При регистрации файлового хранилища больших данных Hive через ArcGIS Server с GeoAnalytics Server, можно выбрать только одну базу данных. В этом примере, если бы была выбрана база данных CityData, то в файловом хранилище больших данных было бы два набора данных, FireData и LandParcels.|---HiveMetastore < -- The top-level folder is what is registered as a big data file share
|---default < -- A database
|---Earthquakes
|---Hurricanes
|---GlobalOceans
|---CityData < -- A database that is registered (specified in Server Manager)
|---FireData
|---LandParcels
Облачные хранилища
Далее приведены три шага для регистрации файлового хранилища больших данных, имеющего тип облачного хранилища.
Подготовка ваших данных
Чтобы подготовить данные для файлового хранилища больших данных в облачном хранилище, отформатируйте ваши наборы данных, как вложенные папки внутри отдельной родительской папки.
Ниже приводится пример возможной структуры ваших данных. В данном примере показана регистрация родительской папки, FileShareFolder, в которой содержится три набора данных с именами Earthquakes, Hurricanes и GlobalOceans. При регистрации родительской папки, все вложенные папки внутри указанной папки
также регистрируются на сервере GeoAnalytics Server. Пример структурирования данных в облачном хранилище, которое будет использоваться в качестве файлового хранилища больших данных. Это файловое хранилище больших данных содержит три набора данных: Earthquakes, Hurricanes и GlobalOceans.|---Cloud Store < -- The cloud store being registered
|---Container or S3 Bucket Name < -- The container (Azure) or bucket (Amazon) being registered as part of the cloud store
|---FileShareFolder < -- The parent folder that is registered as the 'folder' during cloud store registration
|---Earthquakes < -- The dataset "Earthquakes", composed of 4 csvs with the same schema
|---1960
|---01_1960.csv
|---02_1960.csv
|---1961
|---01_1961.csv
|---02_1961.csv
|---Hurricanes < -- The dataset "Hurricanes", composed of 3 shapefiles with the same schema
|---atlantic_hur.shp
|---pacific_hur.shp
|---otherhurricanes.shp
|---GlobalOceans < -- The dataset "GlobalOceans", composed of 1 shapefile
|---oceans.shp
Регистрация облачного хранилища на GeoAnalytics Server
Подключитесь к своему сайту GeoAnalytics Server из ArcGIS Server Manager для регистрации облачного хранилища. Когда вы регистрируете облачное хранилище, необходимо включить имя контейнера Azure, имя корзины Amazon S3 или имя пользователя Azure Data Lake Store. Рекомендуется также дополнительно указать папку в контейнере или сегменте. Указанная папка состоит из вложенных папок, и каждая представлена, как отдельный набор данных. Каждый набор данных состоит из всего содержания вложенной папки.
Регистрация облачного хранилища в качестве файлового хранилища больших данных
Следуйте приведенным шагам для регистрации облачного хранилища, которое вы создали в предыдущем разделе, в качестве файлового хранилища больших данных:
- Выполните вход на ваш сайт GeoAnalytics Server из ArcGIS Server Manager.
Вы можете войти как издатель или как администратор.
- Перейдите к Сайт > Хранилища данных и выберите Файловое хранилище больших данных из ниспадающего списка Зарегистрировать.
- Предоставьте следующую информацию в диалоговом окне Зарегистрировать файловое хранилище больших данных:
- Введите имя файлового хранилища больших данных.
- Выберите Облачное хранилище в ниспадающем списке Тип.
- Выберите имя вашего облачного хранилища данных в ниспадающем списке Облачное хранилище.
- Щелкните Создать, чтобы зарегистрировать ваше облачное хранилище в качестве файлового хранилища больших данных.
Теперь у вас есть файловое хранилище больших данных и манифест для облачного хранилища . Элемент файлового хранилища больших данных на портале ссылается на сервис каталога больших данных в GeoAnalytics Server.
Регистрация файлового хранилища больших данных
Чтобы зарегистрировать файловое хранилище, HDFS или облачное хранилище Hive в качестве файлового хранилища больших данных, подключитесь к сайту GeoAnalytics Server через ArcGIS Server Manager. Более подробно о необходимых для регистрации действиях см. Регистрация данных в ArcGIS Server с помощью Manager в ArcGIS Server.
Подсказка:
Шаги для регистрации облачного хранилища в качестве файлового хранилища больших данных были приведены в предыдущем разделе.
После регистрации файлового хранилища больших данных будет сгенерирован манифест, в котором указывается формат наборов данных в местоположении этого хранилища и в том числе поля, представляющие геометрию и время. Файловое хранилище больших данных создается на портале, который ссылается на сервис каталога больших данных в GeoAnalytics Server, где эти данные зарегистрированы. Более подробно о сервисах каталога больших данных см. документацию Сервис каталога больших данных в Справке ArcGIS Services REST API.
Изменение файлового хранилища больших данных
После создания сервиса каталога больших данных автоматически генерируется манифест, который загружается на сайт GeoAnalytics Server, где эти данные зарегистрированы. В процессе генерации манифеста в наборе данных не всегда правильно определяются поля геометрии и времени, может потребоваться корректировка. Для внесения изменений в манифест выполните шаги из раздела Редактирование файловых хранилищ больших данных в Manager. Дополнительные сведения о манифесте файлового хранилища больших данных см. в разделе Знакомство с манифестом файлового хранилища больших данных Справки ArcGIS Server.
Выполнение анализа на файловом хранилище больших данных
Выполнение анализа набора данных из файлового хранилища больших данных возможно через любой клиент, который поддерживает GeoAnalytics Server, включая:
- ArcGIS Pro
- Map Viewer
- ArcGIS REST API
- ArcGIS API for Python
Для выполнения анализа на файловом хранилище больших данных с помощью ArcGIS Pro или Map Viewer выберите Инструменты геоаналитики, который вы хотели бы использовать. Перейдите к месту расположения данных, которые будут использоваться в качестве входных для этого инструмента, в разделе Портал в ArcGIS Pro или в диалоговом окне Обзор слоев в Map Viewer. Данные будут в Мои ресурсы, если вы сами регистрировали эти данные. Если не сами, то проверьте Группы или Весь портал. Примите к сведению, что слой файлового хранилища больших данных, который выбран для анализа, не будет отображаться на карте.
Примечание:
Убедитесь, что вы выполнили вход на портал под учетной записью с доступом к зарегистрированному файловому хранилищу больших данных. Чтобы быстро найти все доступные для вас файловые хранилища больших данных выполните поиск на портале по условию bigDataFileShare*.
Для выполнения анализа на файловом хранилище больших данных посредством ArcGIS REST API используйте в качестве входных данных URL-адрес сервиса каталога больших данных. URL-адрес будет иметь формат {"url":" https://webadaptorhost.domain.com/webadaptorname/rest/DataStoreCatalogs/bigDataFileShares_filesharename/BigDataCatalogServer/dataset"}. Например, если имя компьютера – example, имя домена – esri, имя Web Adaptor – server, имя файлового хранилища больших данных – MyData, а имя набора данных – Earthquakes, то URL-адрес будет следующим: {"url":" https://example.esri.com/server/rest/DataStoreCatalogs/bigDataFileShares_MyData/BigDataCatalogServer/Earthquakes"}. Более подробно о вводе данных для анализа больших данных посредством REST, см. раздел Ввод объектов в документации ArcGIS Services REST API.