Skip To Content

Czym jest udostępniony plik dużych zbiorów danych?

Informacje o udostępnionych plikach dużych zbiorów danych

Udostępniony plik dużych zbiorów danych to element utworzony w portalu, który odwołuje się do danych obiektów (punktów, polilinii, poligonów lub danych tabelarycznych) w lokalizacji dostępnej dla serwera ArcGIS GeoAnalytics Server. Element udostępnionego pliku dużych zbiorów danych w portalu umożliwia przeglądanie zarejestrowanych danych w narzędziach serwera ArcGIS GeoAnalytics Server. Udostępnione pliki dużych zbiorów danych mogą odwoływać się do następujących źródeł danych:

  • Udostępniony plik — katalog zestawów danych na dysku lokalnym lub udostępniony w sieci.
  • System plików HDFS — katalog systemu plików HDFS (Hadoop Distributed File System) z zestawami danych.
  • Hurtownia danych Hive — bazy danych zawierające metadane.
  • Magazyn w chmurze — zasobnik Simple Storage Service (S3) usług Amazon Web Services (AWS) lub kontener obiektów BLOB platformy Microsoft Azure zawierający katalog zestawów danych. Magazyny w chmurze są dostępne w oprogramowaniu ArcGIS od wersji 10.5.1.

Notatka:

Udostępniony plik dużych zbiorów danych jest dostępny tylko wtedy, gdy administrator portalu włączył serwer GeoAnalytics Server. Więcej informacji o włączaniu serwera GeoAnalytics Server zawiera temat Konfigurowanie serwera ArcGIS GeoAnalytics Server.

Użycie udostępnionego pliku dużych zbiorów danych wspólnego dla wszystkich źródeł danych daje kilka korzyści. Można przechowywać dane w dostępnej lokalizacji, dopóki użytkownik nie będzie gotowy do wykonania analizy. Udostępniony plik dużych zbiorów danych uzyskuje dostęp do danych podczas wykonywania analizy, dlatego można dodawać nowe dane do istniejącego zestawu danych w udostępnionym pliku dużych zbiorów danych bez konieczności ponownego rejestrowania lub publikowania danych. Ponadto można zmodyfikować manifest, aby usunąć, dodać lub zaktualizować zestawy danych w udostępnionym pliku dużych zbiorów danych. Udostępnione pliki dużych zbiorów danych są niezwykle elastyczne pod względem definiowania czasu i geometrii, jak również dzięki możliwości użycia wielu formatów godziny w pojedynczym zestawie danych. Udostępnione pliki dużych zbiorów danych umożliwiają również partycjonowanie zestawów danych przy jednoczesnym traktowaniu wielu partycji jako pojedynczego zestawu danych.

Notatka:

Udostępnione pliki dużych zbiorów danych są dostępne tylko wówczas, gdy są uruchomione narzędzia GeoAnalytics Tools. Oznacza to, że możliwe jest tylko przeglądanie udostępnionych plików dużych zbiorów danych i dodawanie ich do analizy. Nie można ich przedstawiać na mapie.

Udostępnione pliki dużych zbiorów danych są jednym ze sposobów uzyskiwania dostępu do danych przy użyciu narzędzi GeoAnalytics Tools. Listę możliwych danych wejściowych narzędzi GeoAnalytics Tools zawiera temat Korzystanie z narzędzi GeoAnalytics Tools w przeglądarce map portalu.

Przygotowanie danych do zarejestrowania jako udostępnionych plików dużych zbiorów danych

Udostępnione pliki i systemy plików HDFS

W celu przygotowania danych dla udostępnionych plików dużych zbiorów danych należy sformatować zestawy danych jako podfoldery w tym samym folderze nadrzędnym, który zostanie zarejestrowany. Nazwy podfolderów w tym zarejestrowanym folderze nadrzędnym reprezentują nazwy zestawów danych. Jeśli podfoldery zawierają wiele folderów lub plików, cała zawartość podfolderów najwyższego poziomu jest odczytywana jako pojedynczy zestaw danych. Poniżej przedstawiono przykład sposobu rejestrowania folderu FileShareFolder, który zawiera trzy zestawy danych o nazwach Earthquakes, Hurricanes i GlobalOceans. Podczas rejestrowania folderu nadrzędnego wszystkie podkatalogi znajdujące się w podanym folderze są również rejestrowane na serwerze GeoAnalytics Server. Zawsze należy rejestrować folder nadrzędny (na przykład \\machinename\FileShareFolder), który zawiera jeden lub większą liczbę folderów pojedynczych zestawów danych.

Przykład udostępnionego pliku dużych zbiorów danych zawierającego trzy zestawy danych: Earthquakes (Trzęsienia ziemi), Hurricanes (Huragany) i GlobalOceans (Oceany globalne).

|---FileShareFolder                 < -- The top-level folder is what is registered as a big data file share
   |---Earthquakes                  < -- A dataset is all files and folders within the top-level subfolder
      |---1960
         |---01_1960.csv
         |---02_1960.csv
      |---1961
         |---01_1961.csv
         |---02_1961.csv
   |---Hurricanes
      |---atlantic_hur.shp
      |---pacific_hur.shp
      |---otherhurricanes.shp
   |---GlobalOceans
      |---oceans.shp

Ta sama struktura jest stosowana do udostępnionych plików oraz do systemów plików HDFS, a różnice polegają jedynie na użyciu innej terminologii. W udostępnionym pliku istnieje folder lub katalog najwyższego poziomu, a zestawy danych są reprezentowane przez podfoldery. W systemie plików HDFS rejestrowana jest lokalizacja udostępnionego pliku zawierającego zestawy danych. W następującej tabeli podano różnice:

Udostępniony plikSystem plików HDFS

Lokalizacja udostępnionego pliku dużych zbiorów danych

Folder lub katalog

Ścieżka w systemie plików HDFS

Zestawy danych

Podfoldery najwyższego poziomu

Zestawy danych w obrębie ścieżki w systemie plików HDFS

Po zorganizowaniu danych w postaci folderu z podfolderami zestawów danych należy udostępnić dane dla serwera GeoAnalytics Server, wykonując czynności opisane w sekcji Udostępnianie danych dla serwera ArcGIS Server i zarejestrować folder zestawu danych.

Hurtownia danych Hive

W hurtowni danych Hive wszystkie tabele w bazie danych są rozpoznawane jako zestawy danych w udostępnionym pliku dużych zbiorów danych. W poniższym przykładzie występuje magazyn metadanych zawierający dwie bazy danych: default i CityData. Podczas rejestrowania udostępnionego pliku dużych zbiorów danych Hive za pośrednictwem serwera ArcGIS Server na serwerze GeoAnalytics Server można wybrać tylko jedną bazę danych. W tym przykładzie po wybraniu bazy danych CityData w udostępnionym pliku dużych zbiorów danych będą zawarte dwa zestawy danych: FireData i LandParcels.

|---HiveMetastore                 < -- The top-level folder is what is registered as a big data file share   |---default                    < -- A database      |---Earthquakes      |---Hurricanes      |---GlobalOceans   |---CityData				               < -- A database that is registered (specified in Server Manager)      |---FireData      |---LandParcels

Magazyny w chmurze

Wyróżnia się trzy etapy rejestrowania udostępnionego pliku dużych zbiorów danych typu Magazyn w chmurze.

Przygotowanie danych

W celu przygotowania danych dla udostępnionych plików dużych zbiorów danych w magazynie w chmurze należy sformatować zestawy danych jako podfoldery w tym samym folderze nadrzędnym.

Poniżej podano przykład odpowiedniej struktury danych. W tym przykładzie rejestrowany jest folder nadrzędny FileShareFolder, który zawiera trzy zestawy danych: Earthquakes, Hurricanes oraz GlobalOceans. Podczas rejestrowania folderu nadrzędnego wszystkie podkatalogi znajdujące się w podanym folderze są również rejestrowane na serwerze GeoAnalytics Server.

Przykład struktury danych w magazynie w chmurze, który będzie wykorzystywany jako udostępniony plik dużych zbiorów danych. Taki udostępniony plik dużych zbiorów danych zawiera trzy zestawy danych: Earthquakes (Trzęsienia ziemi), Hurricanes (Huragany) i GlobalOceans (Oceany globalne).

|---Cloud Store                          < -- The cloud store being registered
   |---Container or S3 Bucket Name       < -- The container (Azure) or bucket (Amazon) being registered as part of the cloud store
      |---FileShareFolder                < -- The parent folder that is registered as the 'folder' during cloud store registration
         |---Earthquakes                 < -- The dataset "Earthquakes" composed of 4 csvs
            |---1960
               |---01_1960.csv
               |---02_1960.csv
            |---1961
               |---01_1961.csv
               |---02_1961.csv
         |---Hurricanes                  < -- The dataset "Hurricanes" composed of 3 shapefiles
            |---atlantic_hur.shp
            |---pacific_hur.shp
            |---otherhurricanes.shp
         |---GlobalOceans                < -- The dataset "GlobalOceans" composed of 1 shapefile
            |---oceans.shp

Zarejestruj magazyn w chmurze na serwerze GeoAnalytics Server.

Połącz się ze swoją witryną na serwerze GeoAnalytics Server z poziomu aplikacji ArcGIS Server Manager, aby zarejestrować magazyn w chmurze. Przy rejestrowaniu magazynu w chmurze należy podać nazwę kontenera Azure lub nazwę zasobnika AWS S3, a także folder, w którym znajduje się kontener lub zasobnik. Określony folder składa się z podfolderów, z których każdy odpowiada poszczególnym zestawom danych. Każdy zestaw danych składa się ze wszystkich zasobów w podfolderze.

Rejestracja magazynu w chmurze jako udostępnionego pliku dużych zbiorów danych

Sposób rejestracji magazynu w chmurze jako udostępnianego pliku dużych zbiorów danych zależy od stosowanego magazynu.

Aby zarejestrować magazyn w chmurze AWS S3 utworzony w poprzedniej sekcji jako udostępniony plik dużych zbiorów danych, wykonaj poniższą procedurę:

  1. Zaloguj się na stronie GeoAnalytics Server z poziomu aplikacji ArcGIS Server Manager.

    Możesz zalogować się jako publikujący lub administrator.

    Notatka:

    W oprogramowaniu GeoAnalytics Server 10.5.1 nie można zarejestrować magazynu w chmurze usług AWS z użyciem poświadczeń IAM.

  2. Przejdź do sekcji Witryna > Magazyny danych i wybierz opcję Udostępniony plik dużych zbiorów danych z listy rozwijanej Zarejestruj.
  3. Wprowadź następujące informacje w oknie dialogowym Rejestracja udostępnionego pliku dużych zbiorów danych:
    1. Wprowadź nazwę dla udostępnionego pliku dużych zbiorów danych.
    2. Wybierz opcję Magazyn w chmurze z listy rozwijanej Typ.
    3. Wybierz nazwę magazynu w chmurze AWS z listy rozwijanej Magazyn w chmurze.
    4. Kliknij przycisk Utwórz, aby zarejestrować magazyn w chmurze jako udostępniony plik dużych zbiorów danych.

Posiadasz teraz udostępniony pliku dużych zbiorów danych oraz manifest dla magazynu w chmurze AWS. Udostępniony plik dużych zbiorów danych wskazuje usługę katalogową dużych zbiorów danych na serwerze GeoAnalytics Server.

Aby zarejestrować magazyn w chmurze Azure utworzony w poprzedniej sekcji jako udostępniony plik dużych zbiorów danych, wykonaj poniższą procedurę:

  1. Zaloguj się w witrynie GeoAnalytics Server z poziomu aplikacji ArcGIS Server Administrator Directory.

    Aplikacja ArcGIS Server Administrator Directory wymaga zalogowania się jako administrator. Aby połączyć się ze sfederowaną witryną GeoAnalytics Server, zaloguj się za pomocą tokena portalu, który wymaga uprawnień administratora portalu, lub jako główny administrator witryny GeoAnalytics Server. Jeśli nie jesteś administratorem portalu lub nie posiadasz dostępu do konta głównego administratora witryny, poproś administratora portalu, aby wykonał te czynności za Ciebie.

  2. Przejdź do opcji data (dane) > registerItem (rejestruj element).
  3. Skopiuj poniższy tekst i wklej go do pola tekstowego Element. Zaktualizuj wartość <bigDataFileShareName>, wprowadzając nazwę udostępnionego pliku dużych zbiorów danych, a także wartość <cloudStoreName>, wprowadzając nazwę magazynu w chmurze Azure podaną podczas rejestracji w witrynie GeoAnalytics Server.

    {
       "path": "/bigDataFileShares/<bigDataFileShareName>",
       "type": "bigDataFileShare",
       "info": {
       "connectionString": "{\"path\" : \"/cloudStores/<cloudStoreName>\"}",
       "connectionType": "dataStore"
       }
       }
    

  4. Kliknij przycisk Zarejestruj element.

    Po zarejestrowaniu elementu udostępniony plik dużych zbiorów danych pojawi się jako magazyn w chmurze w aplikacji ArcGIS Server Manager.

  5. Zaloguj się w witrynie GeoAnalytics Server GeoAnalytics Server z poziomu aplikacji ArcGIS Server Manager.

    Możesz zalogować się jako publikujący lub administrator.

  6. Przejdź do opcji Witryna > Magazyny danych i kliknij przycisk Wygeneruj ponownie manifest dla nowego udostępnionego pliku dużych zbiorów danych.

Posiadasz teraz udostępniony pliku dużych zbiorów danych oraz manifest dla magazynu w chmurze Azure. Udostępniony plik dużych zbiorów danych wskazuje usługę katalogową dużych zbiorów danych na serwerze GeoAnalytics Server.

Rejestrowanie udostępnionego pliku dużych zbiorów danych

Aby zarejestrować udostępniony plik, HDFS lub chmurę Hive jak udostępniony plik dużych zbiorów danych, połącz się z witryną GeoAnalytics Server za pomocą aplikacji ArcGIS Server Manager. Szczegółowe informacje oraz opis procedury rejestracji zawiera temat Rejestrowanie danych na serwerze ArcGIS Server przy użyciu aplikacji Manager w pomocy do serwera ArcGIS Server.

Wskazówka:

Procedurę rejestrowania magazynu w chmurze jako udostępnionego pliku dużych zbiorów danych opisano w poprzedniej sekcji.

Podczas rejestrowania udostępnionego pliku dużych zbiorów danych generowany jest plik manifestu, w którym opisany jest format zestawów danych w lokalizacji udostępnionego pliku, w tym pola reprezentujące geometrię i czas. W portalu tworzony jest element udostępnionego pliku dużych zbiorów danych, który wskazuje usługę katalogową dużych zbiorów danych na serwerze GeoAnalytics Server, na którym zarejestrowano dane. Więcej informacji na temat usług katalogowych dużych zbiorów danych można znaleźć w dokumentacji usługi katalogowe dużych zbiorów danych w pomocy do interfejsu ArcGIS Services REST API.

Modyfikowanie udostępnionego pliku dużych zbiorów danych

Podczas tworzenia usługi katalogowej dużych zbiorów danych automatycznie generowany jest plik manifestu, który zostaje przesłany do witryny serwera GeoAnalytics Server, na którym zarejestrowano dane. Proces generowania pliku manifestu nie zawsze poprawnie szacuje pola reprezentujące geometrię i czas, więc czasami może być konieczne wprowadzenie zmian w tym pliku. Aby zmodyfikować plik manifestu, wykonaj czynności opisane w temacie Edycja udostępnionego pliku dużych zbiorów danych w aplikacji Manager. Więcej informacji na temat pliku manifestu udostępnionego pliku dużych zbiorów danych zawiera sekcja Podstawowe informacje o pliku manifestu udostępnionego pliku dużych zbiorów danych w pomocy do serwera ArcGIS Server.

Uruchamianie analizy na udostępnionym pliku dużych zbiorów danych

Analizę na zestawach danych w udostępnionym pliku dużych zbiorów danych można uruchomić za pomocą dowolnej aplikacji klienckiej, która obsługuje serwer GeoAnalytics Server. Są to następujące aplikacje klienckie:

  • ArcGIS Pro
  • Przeglądarka map witryny Portal for ArcGIS
  • ArcGIS REST API

Aby przeprowadzić analizę na udostępnionym pliku dużych zbiorów danych za pomocą aplikacji ArcGIS Pro lub przeglądarki map witryny Portal for ArcGIS, należy wybrać narzędzie GeoAnalytics Tools, które ma być używane. Aby określić dane wejściowe dla narzędzia, należy odnaleźć miejsce przechowywania danych w obszarze Portal aplikacji ArcGIS Pro lub w oknie dialogowym Przeglądaj warstwy przeglądarki map witryny Portal for ArcGIS. Jeśli dane zostały zarejestrowane samodzielnie, znajdują się w obszarze Moje zasoby. W przeciwnym razie należy ich szukać w obszarze Grupy lub Cały portal. Należy pamiętać, że warstwa udostępnionego pliku dużych zbiorów danych wybrana na potrzeby analizy nie będzie wyświetlana na mapie.

Notatka:

Konieczne jest zalogowanie na koncie portalu z uprawnieniami pozwalającymi na dostęp do zarejestrowanego udostępnionego pliku dużych zbiorów danych. Aby szybko odnaleźć wszystkie udostępnione pliki dużych zbiorów danych, do których można uzyskać dostęp, należy wyszukać w portalu termin bigDataFileShare*.

Aby przeprowadzić analizę na udostępnionym pliku dużych zbiorów danych za pomocą interfejsu ArcGIS REST API, w danych wejściowych należy użyć adresu URL usługi katalogowej dużego zbioru danych. Ma on format {"url":" https://webadaptorhost.domain.com/webadaptorname/rest/DataStoreCatalogs/bigDataFileShares_filesharename/BigDataCatalogServer/dataset"}. Na przykład w przypadku komputera o nazwie example, domeny o nazwie esri, adaptera internetowego o nazwie server, udostępnionego pliku dużych zbiorów danych o nazwie MyData i zestawu danych o nazwie Earthquakes, adres URL jest następujący: {"url":" https://example.esri.com/server/rest/DataStoreCatalogs/bigDataFileShares_MyData/BigDataCatalogServer/Earthquakes"}. Więcej informacji na temat danych wejściowych analizy dużych zbiorów danych za pomocą usług REST można znaleźć w sekcji Dane wejściowe obiektów znajdującej się w dokumentacji interfejsu ArcGIS Services REST API.