Notatka:
Od wersji 10.9.1 udostępniony plik dużych zbiorów danych rejestruje się z poziomu strony zasobów portalu. Jest to zalecany sposób rejestrowania udostępnionych plików dużych zbiorów danych. Aplikacji Server Manager do edycji należy używać tylko wtedy, gdy udostępniony plik dużych zbiorów danych został utworzony za pomocą aplikacji Server Manager i nie został zastąpiony udostępnionym plikiem dużych zbiorów danych w portalu.
Udostępniony plik dużych zbiorów danych to element utworzony w portalu, który odwołuje się do lokalizacji dostępnej dla serwera ArcGIS GeoAnalytics Server. Lokalizacja udostępnionego pliku dużych zbiorów danych może być używana na potrzeby wejściowych i wynikowych danych obiektowych (punktów, polilinii, poligonów lub danych tabelarycznych) narzędzi analiz geoprzestrzennych. Podczas tworzenia udostępnionego pliku dużych zbiorów danych na stronie zasobów portalu w portalu są tworzone co najmniej dwa elementy:
- Element magazynu danych (udostępniony plik dużych zbiorów danych)
- Element udostępnionego pliku dużych zbiorów danych
- Element magazynu danych (lokalizacja magazynu w chmurze), jeśli dla udostępnionego pliku dużych zbiorów danych jest rejestrowany magazyn danych przechowywany w chmurze
Notatka:
Udostępniony plik dużych zbiorów danych jest dostępny tylko wtedy, gdy administrator portalu włączył serwer GeoAnalytics Server. Aby uzyskać więcej informacji o włączaniu serwera GeoAnalytics Server, zapoznaj się z sekcją Konfigurowanie serwera ArcGIS GeoAnalytics Server.
Udostępnione pliki dużych zbiorów danych
Użycie udostępnionego pliku dużych zbiorów danych zapewnia kilka korzyści:
- Można przechowywać dane w dostępnej lokalizacji, dopóki użytkownik nie będzie gotowy do wykonania analizy. Udostępniony plik dużych zbiorów danych uzyskuje dostęp do danych podczas wykonywania analizy, dlatego można kontynuować dodawanie danych do istniejącego zestawu danych w udostępnionym pliku dużych zbiorów danych bez konieczności ponownego rejestrowania lub publikowania danych.
- Ponadto można zmodyfikować manifest, aby usunąć, dodać lub zaktualizować zestawy danych w udostępnionym pliku dużych zbiorów danych.
- Udostępnione pliki dużych zbiorów danych są niezwykle elastyczne pod względem definiowania czasu i geometrii, jak również dzięki możliwości użycia wielu formatów godziny w pojedynczym zestawie danych.
- Udostępnione pliki dużych zbiorów danych umożliwiają również partycjonowanie zestawów danych przy jednoczesnym traktowaniu wielu partycji jako pojedynczego zestawu danych.
- Udostępniony plik dużych zbiorów danych używany na potrzeby danych wynikowych umożliwia zapisywanie wyników w formatach, z których można korzystać w innych procedurach wykonywania zadań, na przykład w postaci plików parquet do dalszej analizy lub w celu przechowywania.
Notatka:
Udostępnione pliki dużych zbiorów danych są dostępne tylko wówczas, gdy są uruchomione narzędzia GeoAnalytics Tools. Oznacza to, że możliwe jest tylko przeglądanie udostępnionych plików dużych zbiorów danych i dodawanie ich do analizy. Nie można ich przedstawiać na mapie.
Udostępnione pliki dużych zbiorów danych mogą odwoływać się do następujących wejściowych źródeł danych:
- Udostępniony plik — katalog zestawów danych na dysku lokalnym lub udostępniony w sieci.
- Apache Hadoop Distributed File System (HDFS) — katalog zestawów danych HDFS.
- Apache Hive — bazy danych zawierające metadane Hive.
- Magazyn w chmurze — zasobnik usługi Amazon Simple Storage Service (S3), kontener obiektów blob platformy Microsoft Azure lub magazyn usługi Microsoft Azure Data Lake Storage Gen2 zawierający katalog zestawów danych.
Jeśli wyniki są zapisywane w udostępnionym pliku dużych zbiorów danych, można używać następujących danych wynikowych dla narzędzi GeoAnalytics Tools:
- Udostępniony plik
- HDFS
- Lokalizacja magazynu w chmurze
Następujące typy plików są obsługiwane jako wejściowe i wynikowe zestawy danych w udostępnionych plikach dużych zbiorów danych:
- Pliki rozdzielane (takie jak .csv, .tsv i .txt)
- Pliki shape (.shp)
- Pliki parquet (.parquet)
Notatka:
Obsługiwane są tylko niezaszyfrowane pliki parquet.
- Pliki ORC (.orc)
Udostępnione pliki dużych zbiorów danych są jednym ze sposobów uzyskiwania dostępu do danych przy użyciu narzędzi GeoAnalytics Tools. (Nie są one wymagane przez narzędzia GeoAnalytics Tools). Listę możliwych danych wejściowych i wynikowych narzędzi GeoAnalytics Tools zawiera temat Korzystanie z narzędzi GeoAnalytics Tools w przeglądarce map Map Viewer Classic.
Istnieje możliwość zarejestrowania dowolnej liczby udostępnionych plików dużych zbiorów danych. Każdy udostępniony plik dużych zbiorów danych może zawierać dowolną liczbę zestawów danych. Instrukcje dotyczące rejestrowania udostępnionych plików dużych zbiorów danych w witrynie GeoAnalytics Server można znaleźć w artykule Dodawanie udostępnionego pliku dużych zbiorów danych.
W poniższej tabeli przedstawiono niektóre ważne terminy dotyczące udostępnionych plików dużych zbiorów danych.
Okres ważności | Opis |
---|---|
Udostępniony plik dużych zbiorów danych | Lokalizacja zarejestrowana na serwerze GeoAnalytics Server do użycia jako wejściowy, wynikowy lub jednocześnie wejściowy i wynikowy zestaw danych dla narzędzi GeoAnalytics Tools. |
Usługa katalogowa dużych zbiorów danych | Usługa, która zawiera opis wejściowych zestawów danych i schematów oraz nazwy szablonów wynikowych udostępnionego pliku dużych zbiorów danych. Jest tworzona podczas rejestrowania udostępnionego pliku dużych zbiorów danych i tworzenia manifestu. Więcej informacji na temat usług katalogowych dużych zbiorów danych można znaleźć w dokumentacji usługi katalogowe dużych zbiorów danych w pomocy do interfejsu ArcGIS Services REST API. |
Element udostępnionego pliku dużych zbiorów danych | Element w portalu odwołujący się do usługi katalogowej dużych zbiorów danych. Przez udostępnianie tego elementu w portalu możliwe jest sterowanie użytkownikami, którzy mogą korzystać z udostępnionego pliku dużych zbiorów danych jako danych wejściowych dla narzędzi GeoAnalytics. |
Manifest | Plik w formacie JSON, który zawiera opis dostępnych zestawów danych oraz schemat danych wejściowych w udostępnionym pliku dużych zbiorów danych. Manifest jest generowany automatycznie podczas rejestrowania udostępnionego pliku dużych zbiorów danych. Można go modyfikować, edytując lub używając pliku wskazówek. Pojedynczy udostępniony plik dużych zbiorów danych ma jeden manifest. |
Szablony wynikowe | Jeden lub większa liczba szablonów opisujących typ pliku i opcjonalnie formatowanie podczas zapisywania wyników w udostępnionym pliku dużych zbiorów danych. Szablon może na przykład wskazywać, że wyniki są zapisywane do pliku shape. Udostępniony plik dużych zbiorów danych może nie mieć żadnego albo jeden bądź więcej szablonów wynikowych. |
Typ udostępnionego pliku dużych zbiorów danych | Typ rejestrowanych lokalizacji. Na przykład może istnieć udostępniony plik dużych zbiorów danych typu HDFS. |
Format zestawu danych udostępnionego pliku dużych zbiorów danych | Format danych odczytywanych lub zapisywanych. Na przykład typem pliku może być plik shape. |
Plik wskazówek | Opcjonalny plik, którego można użyć przy generowaniu manifestu dla plików rozdzielanych używanych jako dane wejściowe. |
Przygotowanie danych do zarejestrowania jako udostępnionych plików dużych zbiorów danych
Aby używać zestawów danych jako danych wejściowych w udostępnionym pliku dużych zbiorów danych, należy się upewnić, że dane są poprawnie sformatowane. Poniżej omówiono formatowanie w zależności od typu udostępnionego pliku dużych zbiorów danych.
Udostępnione pliki i system plików HDFS
W celu przygotowania danych dla udostępnionych plików dużych zbiorów danych należy sformatować zestawy danych jako podfoldery w tym samym folderze nadrzędnym, który zostanie zarejestrowany. Nazwy podfolderów w tym zarejestrowanym folderze nadrzędnym reprezentują nazwy zestawów danych. Jeśli podfoldery zawierają wiele folderów lub plików, cała zawartość podfolderów najwyższego poziomu jest odczytywana jako pojedynczy zestaw danych. W całym zestawie danych musi być używany ten sam schemat. Poniżej przedstawiono przykład sposobu rejestrowania folderu FileShareFolder, który zawiera trzy zestawy danych o nazwach Earthquakes, Hurricanes i GlobalOceans. Podczas rejestrowania folderu nadrzędnego wszystkie podkatalogi znajdujące się w podanym folderze są również rejestrowane na serwerze GeoAnalytics Server. Zawsze należy rejestrować folder nadrzędny (na przykład \\machinename\FileShareFolder), który zawiera jeden lub większą liczbę folderów pojedynczych zestawów danych. Przykład udostępnionego pliku dużych zbiorów danych zawierającego trzy zestawy danych: Earthquakes (Trzęsienia ziemi), Hurricanes (Huragany) i GlobalOceans (Oceany globalne).
|---FileShareFolder < -- The top-level folder is what is registered as a big data file share
|---Earthquakes < -- A dataset "Earthquakes", composed of 4 csvs with the same schema
|---1960
|---01_1960.csv
|---02_1960.csv
|---1961
|---01_1961.csv
|---02_1961.csv
|---Hurricanes < -- The dataset "Hurricanes", composed of 3 shapefiles with the same schema
|---atlantic_hur.shp
|---pacific_hur.shp
|---otherhurricanes.shp
|---GlobalOceans < -- The dataset "GlobalOceans", composed of a single shapefile
|---oceans.shp
Ta sama struktura jest stosowana do udostępnionych plików oraz do systemów plików HDFS, a różnice polegają jedynie na użyciu innej terminologii. W udostępnionym pliku istnieje folder lub katalog najwyższego poziomu, a zestawy danych są reprezentowane przez podfoldery. W systemie plików HDFS rejestrowana jest lokalizacja udostępnionego pliku zawierającego zestawy danych. W następującej tabeli podano różnice:
Udostępniony plik | HDFS | |
---|---|---|
Lokalizacja udostępnionego pliku dużych zbiorów danych | Folder lub katalog | Ścieżka HDFS |
Zestawy danych | Podfoldery najwyższego poziomu | Zestawy danych w obrębie ścieżki w systemie plików HDFS |
Po zorganizowaniu danych w postaci folderu z podfolderami zestawów danych należy udostępnić dane dla serwera GeoAnalytics Server, wykonując czynności opisane w sekcji Udostępnianie danych dla serwera ArcGIS Server i zarejestrować folder zestawu danych lub ścieżkę HDFS w portalu.
Hive
W hurtowni danych Hive wszystkie tabele w bazie danych są rozpoznawane jako zestawy danych w udostępnionym pliku dużych zbiorów danych. W poniższym przykładzie występuje magazyn metadanych zawierający dwie bazy danych: default i CityData. Podczas rejestrowania udostępnionego pliku dużych zbiorów danych Hive można wybrać tylko jedną bazę danych. W tym przykładzie po wybraniu bazy danych CityData w udostępnionym pliku dużych zbiorów danych będą zawarte dwa zestawy danych: FireData i LandParcels.
|---HiveMetastore < -- The top-level folder is what is registered as a big data file share
|---default < -- A database
|---Earthquakes
|---Hurricanes
|---GlobalOceans
|---CityData < -- A database that is registered (specified in Server Manager)
|---FireData
|---LandParcels
Magazyny danych przechowywane w chmurze
W celu przygotowania danych dla udostępnionych plików dużych zbiorów danych w lokalizacji magazynu w chmurze należy sformatować zestawy danych jako podfoldery w tym samym folderze nadrzędnym.
Poniżej podano przykład odpowiedniej struktury danych. W tym przykładzie rejestrowany jest folder nadrzędny FileShareFolder, który zawiera trzy zestawy danych: Earthquakes, Hurricanes oraz GlobalOceans. Podczas rejestrowania folderu nadrzędnego wszystkie podkatalogi znajdujące się w podanym folderze są również rejestrowane na serwerze GeoAnalytics Server. Przykład struktury danych w lokalizacji magazynu w chmurze, która będzie wykorzystywana jako udostępniony plik dużych zbiorów danych. Taki udostępniony plik dużych zbiorów danych zawiera trzy zestawy danych: Earthquakes (Trzęsienia ziemi), Hurricanes (Huragany) i GlobalOceans (Oceany globalne).
|---Cloud Store < -- The cloud storage location being registered
|---Container or S3 Bucket Name < -- The container (Azure) or bucket (Amazon) being registered as part of the cloud storage data store
|---FileShareFolder < -- The parent folder that is registered as the 'folder' during cloud storage registration
|---Earthquakes < -- The dataset "Earthquakes", composed of 4 csvs with the same schema
|---1960
|---01_1960.csv
|---02_1960.csv
|---1961
|---01_1961.csv
|---02_1961.csv
|---Hurricanes < -- The dataset "Hurricanes", composed of 3 shapefiles with the same schema
|---atlantic_hur.shp
|---pacific_hur.shp
|---otherhurricanes.shp
|---GlobalOceans < -- The dataset "GlobalOceans", composed of 1 shapefile
|---oceans.shp
Zarządzanie udostępnionymi plikami dużych zbiorów danych w portalu
Po utworzeniu udostępnionego pliku dużych zbiorów danych można przejrzeć znajdujące się w nim zestawy danych oraz szablony określające sposób zapisu wyników zapisanych w udostępnianych plikach dużych zbiorów danych.
Modyfikowanie udostępnionego pliku dużych zbiorów danych
Gdy tworzony jest udostępniony plik dużych zbiorów danych, automatycznie generowany i przesyłany jest manifest danych wejściowych. Proces generowania pliku manifestu nie zawsze poprawnie szacuje pola reprezentujące geometrię i czas, więc czasami może być konieczne wprowadzenie zmian w tym pliku. Aby edytować manifest i sposób reprezentacji zestawów danych, wykonaj czynności podane w sekcji Edycja udostępnionych plików dużych zbiorów danych. Więcej informacji o manifeście udostępnionego pliku dużych zbiorów danych zawiera sekcja Manifest udostępnionego pliku dużych zbiorów danych w pomocy do serwera ArcGIS Server.
Jeśli został utworzony udostępniony plik dużych zbiorów danych na serwerze ArcGIS Server za pomocą aplikacji Manager, wykonaj czynności podane w sekcji Edycja manifestów udostępnionych plików dużych zbiorów danych w aplikacji Server Manager.
Modyfikowanie szablonów wynikowych dla udostępnionego pliku dużych zbiorów danych
Jeśli wybrana zostanie opcja użycia udostępnionego pliku dużych zbiorów danych jako lokalizacji wynikowej, automatycznie generowane są szablony wynikowe. W tych szablonach opisane jest formatowanie wyjściowych wyników analizy, takie jak typ pliku oraz sposób rejestrowania czasu i geometrii. Chcąc zmodyfikować geometrię lub formatowanie czasu bądź dodać i usunąć szablony, można to zrobić przez zmodyfikowanie szablonów. Aby edytować szablony wynikowe, wykonaj czynności podane w sekcji Tworzenie, edycja i wyświetlanie szablonów wynikowych. Więcej informacji na temat szablonów wynikowych zawiera sekcja Szablony wynikowe w udostępnionym pliku dużych zbiorów danych.
Jeśli został utworzony udostępniony plik dużych zbiorów danych na serwerze ArcGIS Server za pomocą aplikacji Manager, wykonaj czynności podane w sekcji Edycja manifestów udostępnionych plików dużych zbiorów danych w aplikacji Server Manager.
Migracja udostępnionych plików dużych zbiorów danych utworzonych w aplikacji Server Manager do portalu
Udostępnione pliki dużych zbiorów danych utworzone za pomocą portalu mają wiele zalet w porównaniu z plikami dużych zbiorów danych utworzonymi w aplikacji Server Manager, na przykład:
- Ulepszony interfejs użytkownika ułatwiający edycję zestawów danych.
- Uproszczona rejestracja udostępnionych plików dużych zbiorów danych.
- Elementy są przechowywane i udostępniane za pomocą poświadczeń portalu.
Zaleca się utworzenie elementu magazynu danych dla udostępnionych plików dużych zbiorów danych utworzonych w aplikacji Server Manager. W niektórych przypadkach jest to wymagane. W poniższych przypadkach należy przeprowadzić migrację udostępnionych plików dużych zbiorów danych do postaci elementów magazynu danych w portalu, aby móc nadal z nich korzystać:
- Udostępnione pliki dużych zbiorów danych oparte na magazynie danych przechowywanym w chmurze w usłudze Microsoft Azure Data Lake StorageGen1.
Aby migrować udostępniony plik dużych zbiorów danych utworzony w aplikacji Server Manager do elementu magazynu danych portalu, upewnij się, że masz następujące elementy:
- Poświadczenia i lokalizację pliku udostępnionego pliku dużych zbiorów danych.
- Jeśli to możliwe, poświadczenia i lokalizację pliku skonfigurowanego magazynu danych przechowywanego w chmurze.
- Zaloguj się do aplikacji Server Manager w witrynie GeoAnalytics Server.
- Wybierz kolejno opcje Witryna > Magazyny danych. Kliknij przycisk edycji na udostępnionym pliku dużych zbiorów danych, który chcesz zmigrować.
- Przejdź do opcji Zaawansowane > Manifest. Kliknij przycisk Pobierz, aby zapisać manifest.
- Jeśli masz jakieś wskazówki, wykonaj te same czynności dla wskazówek. Kliknij opcję WskazówkiPobierz, aby zapisać plik wskazówek. Zmień rozszerzenie nazwy pliku z .dat na .txt.txt.
- Jeśli masz szablony wynikowe w sekcji ZaawansowaneSzablony wynikowe, skopiuj tekst i zapisz go w pliku tekstowym.
- Utwórz udostępniony plik dużych zbiorów danych na stronie zasobów portalu, używając tego samego typu i lokalizacji wejściowej co poprzednio.
Jeśli nie masz poświadczeń, administrator może je znaleźć w aplikacji Server Administrator, korzystając z opcji decrypt=true elementów udostępnionych plików dużych zbiorów danych i magazynu danych przechowywanego w chmurze.
Postępuj zgodnie z instrukcjami w artykule Dodawanie elementu magazynu danych i użyj tych samych poświadczeń oraz lokalizacji, które są używane w przypadku istniejącego udostępnionego pliku dużych zbiorów danych.
- Po utworzeniu elementu udostępnionego pliku dużych zbiorów danych kliknij opcję Zestawy danych i włącz opcję Pokaż zaawansowane.
- Prześlij zapisany wcześniej manifest, klikając opcję Prześlij w sekcji manifestu. Przejdź do pliku JSON manifestu, który został zapisany wcześniej i kliknij opcję Prześlij. Kliknij przycisk Synchronizuj, aby zmiany zostały uwzględnione.
- Jeśli masz plik wskazówek do przesłania, wykonaj te same czynności i prześlij plik wskazówek po wybraniu opcji Pokaż zaawansowane > Wskazówki > Prześlij. Kliknij przycisk Synchronizuj, aby zmiany zostały uwzględnione.
- Aby przesłać szablony wynikowe, wykonaj jedną z poniższych czynności:
- Ręcznie dodaj szablony wynikowe za pomocą elementu udostępnionego pliku dużych zbiorów danych Dane wynikowe > Dodaj szablony wynikowe.
- Edytuj plik JSON udostępnionego pliku dużych zbiorów danych za pomocą aplikacji ArcGIS Server Administrator Directory. Jest to zalecane tylko wtedy, gdy znasz się na edycji plików JSON.
Teraz posiadasz w portalu udostępniony plik dużych zbiorów danych i manifest dla elementu udostępnionego pliku dużych zbiorów danych. Możesz zaktualizować procedury wykonywania zadań, tak aby korzystały z udostępnionego pliku dużych zbiorów danych i wskazywały na niego. Kiedy będziesz mieć pewność, że wszystko działa zgodnie z oczekiwaniami, usuń oryginalny udostępniony plik dużych zbiorów danych w aplikacji Server Manager.
Uruchamianie analizy na udostępnionym pliku dużych zbiorów danych
Analizę na zestawach danych w udostępnionym pliku dużych zbiorów danych można uruchomić za pomocą dowolnej aplikacji klienckiej, która obsługuje serwer GeoAnalytics Server. Są to następujące aplikacje klienckie:
- ArcGIS Pro
- Map Viewer Classic
- ArcGIS REST API
- ArcGIS API for Python
Aby przeprowadzić analizę na udostępnionym pliku dużych zbiorów danych za pomocą aplikacji ArcGIS Pro lub przeglądarki map Map Viewer Classic, należy wybrać narzędzie GeoAnalytics Tools, które ma być używane. Aby określić dane wejściowe dla narzędzia, należy odnaleźć miejsce przechowywania danych w obszarze Portal aplikacji ArcGIS Pro lub w oknie dialogowym Przeglądaj warstwy przeglądarki map Map Viewer Classic. Jeśli dane zostały zarejestrowane samodzielnie, znajdują się w obszarze Moje zasoby. W przeciwnym razie należy ich szukać w obszarze Grupy lub Cały portal. Należy pamiętać, że warstwa udostępnionego pliku dużych zbiorów danych wybrana na potrzeby analizy nie będzie wyświetlana na mapie.
Notatka:
Konieczne jest zalogowanie na koncie portalu z uprawnieniami pozwalającymi na dostęp do zarejestrowanego udostępnionego pliku dużych zbiorów danych. Aby szybko odnaleźć wszystkie udostępnione pliki dużych zbiorów danych, do których można uzyskać dostęp, należy wyszukać w portalu termin bigDataFileShare*.
Aby przeprowadzić analizę na udostępnionym pliku dużych zbiorów danych za pomocą interfejsu ArcGIS REST API, w danych wejściowych należy użyć adresu URL usługi katalogowej dużego zbioru danych. Jeśli udostępniony plik dużych zbiorów danych został utworzony w portalu, plik ten będzie miał format {"url":" https://webadaptorhost.domain.com/webadaptorname/rest/DataStoreCatalogs/bigDataFileShares_filesharename/"}. Na przykład w przypadku komputera o nazwie example, domeny o nazwie esri, adaptera internetowego o nazwie server, udostępnionego pliku dużych zbiorów danych o nazwie MyData i zestawu danych o nazwie Earthquakes, adres URL jest następujący: {"url":" https://example.esri.com/server/rest/DataStoreCatalogs/bigDataFileShares_MyData/Earthquakes_uniqueID"}. Jeśli udostępniony plik dużych zbiorów danych został utworzony w aplikacji Server Manager, będzie on miał format {"url":"https://webadaptorhost.domain.com/webadaptorname/rest/DataStoreCatalogs/bigDataFileShares_filesharename/BigDataCatalogServer/dataset"}.
Więcej informacji na temat danych wejściowych analizy dużych zbiorów danych za pomocą usług REST można znaleźć w sekcji Dane wejściowe obiektów znajdującej się w dokumentacji interfejsu ArcGIS Services REST API.
Zapisywanie wyników w udostępnionym pliku dużych zbiorów danych
Wyniki analizy przeprowadzonej na zestawie danych (udostępnionym pliku dużych zbiorów danych lub innych danych wejściowych) można zapisać w udostępnionym pliku dużych zbiorów danych. Można to zrobić za pomocą następujących aplikacji klienckich:
- Map Viewer Classic
- ArcGIS REST API
- ArcGIS API for Python
Podczas zapisywania wyników do udostępnionego pliku dużych zbiorów danych manifest wejściowy jest aktualizowany w celu uwzględnienia zapisywanego zestawu danych. Wyniki zapisane w udostępnionym pliku dużych zbiorów danych stają się dostępne jako dane wejściowe dla kolejnego przebiegu narzędzia. Wyników zapisanych w udostępnionym pliku dużych zbiorów danych nie można wizualizować.