О файловых хранилищах больших данных
Файловое хранилище больших данных представляет собой созданный на портале элемент, который ссылается на данные объектов (точки, полилинии, полигоны или табличные данные) в местоположении, доступном для ArcGIS GeoAnalytics Server. Элемент файлового хранилища больших данных на портале позволяет просматривать зарегистрированные данные с помощью инструментов ArcGIS GeoAnalytics Server. Файловые хранилища больших данных могут ссылаться на следующие источники данных:
- Файловое хранилище – директория наборов данных на локальном или сетевом диске.
- HDFS – каталог наборов данных HDFS (Hadoop Distributed File System).
- Hive – базы данных метахранилища.
- Облачное хранилище – блок Amazon Web Services (AWS) Simple Storage Service (S3) или контейнер Microsoft Azure Blob, содержащий директорию с наборами данных. Облачные хранилища доступны начиная с ArcGIS 10.5.1.
Примечание:
Файловое хранилище больших данных доступно, если администратор портала включил GeoAnalytics Server. Подробнее о включении GeoAnalytics Server см. в разделе Настройка ArcGIS GeoAnalytics Server.
Существует несколько причин, почему предпочтительнее использовать файловое хранилище больших данных, общее для всех источников данных. Вы можете хранить свои данные в доступном месте до тех пор, пока не будете готовы выполнить анализ. Файловое хранилище больших данных позволяет работать с данными во время выполнения анализа, поэтому вы можете продолжать добавлять данные в набор, находящийся в файловом хранилище больших данных, без необходимости перерегистрации или опубликования своих данных. Вы также можете изменить манифест, чтобы удалить, добавить или обновить наборы данных в файловом хранилище больших данных. Файловое хранилище больших данных отличается необычайной гибкостью с точки зрения определения геометрии и времени и допускает несколько форматов времени в отдельном наборе данных. Файловые хранилища больших данных позволяют разбивать наборы данных на разделы, сохраняя способность работы с несколькими такими разделами как с единым набором данных.
Примечание:
Файловые хранилища больших данных становятся доступны только при запуске GeoAnalytics Tools. Это означает, что вы можете только просматривать и добавлять файлы больших данных в анализ; вы не можете визуализировать эти данные на карте.
Файловые хранилища больших данных являются одним из нескольких доступа GeoAnalytics Tools к вашим данным. Список возможных входных данных, которые используют GeoAnalytics Tools см. в разделе GeoAnalytics Tools. Использование во вьюере карт портала.
Подготовка данных для регистрации файлового хранилища больших данных
Файловые хранилища и HDFS
Чтобы подготовить данные для файлового хранилища больших данных необходимо представить наборы данных вложенными папками отдельной родительской папки, которая будет регистрироваться. В зарегистрированной родительской папке имена вложенных папок будут совпадать с именами наборов данных. Если эти вложенные папки будут содержать несколько подпапок или файлов, то все содержимое этих вложенных папок высшего уровня будет считаться отдельным набором данных. Ниже – пример, как зарегистрировать папку FileShareFolder, в которой содержится три набора данных, имена которых Earthquakes, Hurricanes и GlobalOceans. При регистрации родительской папки все подкаталоги указанной папки также регистрируются на сервере GeoAnalytics Server. Всегда регистрируйте родительскую папку (например, \\machinename\FileShareFolder), содержащую один или несколько подпапок отдельных наборов данных.
Пример файлового хранилища больших данных, в котором содержится три набора данных: Earthquakes, Hurricanes и GlobalOceans.|---FileShareFolder < -- The top-level folder is what is registered as a big data file share
|---Earthquakes < -- A dataset is all files and folders within the top-level subfolder
|---1960
|---01_1960.csv
|---02_1960.csv
|---1961
|---01_1961.csv
|---02_1961.csv
|---Hurricanes
|---atlantic_hur.shp
|---pacific_hur.shp
|---otherhurricanes.shp
|---GlobalOceans
|---oceans.shp
Такая же структура используется в файловом хранилище и HDFS, хотя терминология отличается. В файловом хранилище имеется папка или каталог высшего уровня, а наборы данных представлены вложенными папками. В HDFS местоположение файлового хранилища зарегистрировано и содержит наборы данных. В следующей таблице приводится описание различий:
Файловое хранилище | HDFS | |
---|---|---|
Местоположение файлового хранилища больших данных | Папка или директория | HDFS-путь |
Наборы данных | Вложенные папки высшего уровня | Наборы данных в HDFS-пути |
После того как данные будут организованы в виде папки с вложенными подпапками наборов данных, сделайте их доступными для GeoAnalytics Server, выполнив шаги, указанные в разделе Предоставление доступа к данным ArcGIS Server и зарегистрируйте папку набора данных.
Корневая ветвь реестра
В Hive – базе данных метахранилища все таблицы в базе данных признаются в качестве наборов данных в файловом хранилище больших данных. В следующем примере показано метахранилище с двумя базами данных, default и CityData. При регистрации файлового хранилища больших данных Hive через ArcGIS Server с GeoAnalytics Server, можно выбрать только одну базу данных. В этом примере, если бы была выбрана база данных CityData, то в файловом хранилище больших данных было бы два набора данных, FireData и LandParcels.|---HiveMetastore < -- The top-level folder is what is registered as a big data file share |---default < -- A database |---Earthquakes |---Hurricanes |---GlobalOceans |---CityData < -- A database that is registered (specified in Server Manager) |---FireData |---LandParcels
Облачные хранилища
Далее приведены три шага для регистрации файлового хранилища больших данных, имеющего тип облачного хранилища.
Подготовка ваших данных
Чтобы подготовить данные для файлового хранилища больших данных в облачном хранилище, отформатируйте ваши наборы данных, как вложенные папки внутри отдельной родительской папки.
Ниже приводится пример возможной структуры ваших данных. В данном примере показана регистрация родителькой папки, FileShareFolder, в которой содержится три набора данных с именами Earthquakes, Hurricanes и GlobalOceans. При регистрации родительской папки, все вложенные папки внутри указанной папки
также регистрируются на сервере GeoAnalytics Server. Пример структурирования данных в облачном хранилище, которое будет использоваться в качестве файлового хранилища больших данных. Это файловое хранилище больших данных содержит три набора данных: Earthquakes, Hurricanes и GlobalOceans.|---Cloud Store < -- The cloud store being registered
|---Container or S3 Bucket Name < -- The container (Azure) or bucket (Amazon) being registered as part of the cloud store
|---FileShareFolder < -- The parent folder that is registered as the 'folder' during cloud store registration
|---Earthquakes < -- The dataset "Earthquakes" composed of 4 csvs
|---1960
|---01_1960.csv
|---02_1960.csv
|---1961
|---01_1961.csv
|---02_1961.csv
|---Hurricanes < -- The dataset "Hurricanes" composed of 3 shapefiles
|---atlantic_hur.shp
|---pacific_hur.shp
|---otherhurricanes.shp
|---GlobalOceans < -- The dataset "GlobalOceans" composed of 1 shapefile
|---oceans.shp
Зарегистрируйте облачное хранилище на вашем GeoAnalytics Server
Подключитесь к своему сайту GeoAnalytics Server из ArcGIS Server Manager для регистрации облачного хранилища. Когда вы регистрируете облачное хранилище, необходимо включить имя контейнера Azure или имя сегмента AWS S3, а также папку внутри контейнера или сегмента. Указанная папка состоит из вложенных папок, и каждая представлена, как отдельный набор данных. Каждый набор данных состоит из всего содержания вложенной папки.
Регистрация облачного хранилища в качестве файлового хранилища больших данных
Метод регистрации облачного хранилища в качестве файлового хранилища больших данных зависит от того, какое облачное хранилище вы используете.
Следуйте приведенным шагам для регистрации облачного хранилища AWS S3, которое вы создали в предыдущем разделе, в качестве файлового хранилища больших данных:
- Выполните вход на ваш сайт GeoAnalytics Server из ArcGIS Server Manager.
Вы можете войти как издатель или как администратор.
Примечание:
В GeoAnalytics Server 10.5.1 нельзя зарегистрировать облачное хранилище AWS используя учетные данные IAM.
- Перейдите к Сайт > Хранилища данных и выберите Файловое хранилище больших данных из ниспадающего списка Зарегистрировать.
- Предоставьте следующую информацию в диалоговом окне Зарегистрировать файловое хранилище больших данных:
- Введите имя файлового хранилища больших данных.
- Выберите Облачное хранилище в ниспадающем списке Тип.
- Выберите имя вашего облачного хранилища данных AWS в ниспадающем списке Облачное хранилище.
- Щелкните Создать, чтобы зарегистрировать ваше облачное хранилище в качестве файлового хранилища больших данных.
Теперь у вас есть файловое хранилище больших данных и манифест для облачного хранилища AWS. Элемент файлового хранилища больших данных на портале ссылается на сервис каталога больших данных в GeoAnalytics Server.
Следуйте приведенным шагам для регистрации облачного хранилища Azure, которое вы создали в последнем разделе, в качестве файлового хранилища больших данных:
- Выполните вход на ваш сайт GeoAnalytics Server из ArcGIS Server Administrator Directory.
ArcGIS Server Administrator Directory требует выполнения входа в качестве администратора. Чтобы подключиться к интегрированному сайту GeoAnalytics Server, необходимо выполнить вход с помощью токена портала, что требует учетных данных администратора, или в качестве основного администратора сайта GeoAnalytics Server. Если вы не являетесь администратором портала или не имеете доступа к информации учетной записи основного администратора сайта, свяжитесь с администратором вашего портала, чтобы он выполнил эти шаги.
- Перейдите к data > registerItem.
- Скопируйте следующий текст и вставьте его в текстовое поле Элемент. Обновите значение <bigDataFileShareName>, используя имя, которое вы хотите использовать для файлового хранилища больших данных, и значение <cloudStoreName>, используя имя, указанное для облачного хранилища Azure при регистрации его на сайте GeoAnalytics Server.
{ "path": "/bigDataFileShares/<bigDataFileShareName>", "type": "bigDataFileShare", "info": { "connectionString": "{\"path\" : \"/cloudStores/<cloudStoreName>\"}", "connectionType": "dataStore" } }
- Щелкните Зарегистрировать элемент.
После того, как элемент зарегистрирован, файловое хранилище больших данных появится в качестве хранилища данных в ArcGIS Server Manager.
- Выполните вход на ваш сайт GeoAnalytics Serverсайт GeoAnalytics Server из ArcGIS Server Manager.
Вы можете войти как издатель или как администратор.
- Перейдите к Сайт > Хранилища данных и щелкните кнопку Создать заново манифест рядом с новым файловым хранилищем больших данных.
Теперь у вас есть файловое хранилище больших данных и манифест для облачного хранилища Azure. Элемент файлового хранилища больших данных на портале ссылается на сервис каталога больших данных в GeoAnalytics Server.
Регистрация файлового хранилища больших данных
Чтобы зарегистрировать файловое хранилище, HDFS или облачное хранилище Hive в качестве файлового хранилища больших данных, подключитесь к сайту GeoAnalytics Server через ArcGIS Server Manager. Более подробно о необходимых для регистрации действиях см. Регистрация данных в ArcGIS Server с помощью Manager в ArcGIS Server.
Подсказка:
Шаги для регистрации облачного хранилища в качестве файлового хранилища больших данных были приведены в предыдущем разделе.
После регистрации файлового хранилища больших данных будет сгенерирован манифест, в котором указывается формат наборов данных в местоположении этого хранилища и в том числе поля, представляющие геометрию и время. Файловое хранилище больших данных создается на портале, который ссылается на сервис каталога больших данных в GeoAnalytics Server, где эти данные зарегистрированы. Более подробно о сервисах каталога больших данных см. документацию Сервис каталога больших данных в Справке ArcGIS Services REST API.
Изменение файлового хранилища больших данных
После создания сервиса каталога больших данных автоматически генерируется манифест, который загружается на сайт GeoAnalytics Server, где эти данные зарегистрированы. В процессе генерации манифеста в наборе данных не всегда правильно определяются поля геометрии и времени, может потребоваться корректировка. Для внесения изменений в манифест выполните шаги из раздела Редактирование файловых хранилищ больших данных в Manager. Дополнительные сведения о манифесте файлового хранилища больших данных см. в разделе Знакомство с манифестом файлового хранилища больших данных Справки ArcGIS Server.
Выполнение анализа на файловом хранилище больших данных
Выполнение анализа набора данных из файлового хранилища больших данных возможно через любой клиент, который поддерживает GeoAnalytics Server, включая:
- ArcGIS Pro
- Вьюер карт Portal for ArcGIS
- ArcGIS REST API
Для выполнения анализа на файловом хранилище больших данных посредством вьюера карт ArcGIS Pro или Portal for ArcGIS, выберите GeoAnalytics Tools, который вы хотели бы использовать. Перейдите к месту расположения данных, которые будут использоваться в качестве входных для этого инструмента, под Портал в ArcGIS Pro или в диалоговом окне Обзор слоев во вьюере карт Portal for ArcGIS. Данные будут в Мои ресурсы, если вы сами регистрировали эти данные. Если не сами, то проверьте Группы или Весь портал. Примите к сведению, что слой файлового хранилища больших данных, который выбран для анализа, не будет отображаться на карте.
Примечание:
Убедитесь, что вы выполнили вход на портал под учетной записью с доступом к зарегистрированному файловому хранилищу больших данных. Чтобы быстро найти все доступные для вас файловые хранилища больших данных выполните поиск на портале по условию bigDataFileShare*.
Для выполнения анализа на файловом хранилище больших данных посредством ArcGIS REST API используйте в качестве входных данных URL-адрес сервиса каталога больших данных. URL-адрес будет иметь формат {"url":" https://webadaptorhost.domain.com/webadaptorname/rest/DataStoreCatalogs/bigDataFileShares_filesharename/BigDataCatalogServer/dataset"}. Например, если имя компьютера – example, имя домена – esri, имя Web Adaptor – server, имя файлового хранилища больших данных – MyData, а имя набора данных – Earthquakes, то URL-адрес будет следующим: {"url":" https://example.esri.com/server/rest/DataStoreCatalogs/bigDataFileShares_MyData/BigDataCatalogServer/Earthquakes"}. Более подробно о вводе данных для анализа больших данных посредством REST, см. раздел Ввод объектов в документации ArcGIS Services REST API.