Skip To Content

Wprowadzenie do udostępnionych plików dużych zbiorów danych

Informacje o udostępnionych plikach dużych zbiorów danych

Udostępniony plik dużych zbiorów danych to element utworzony w portalu, który odwołuje się do danych obiektów (punktów, polilinii, poligonów lub danych tabelarycznych) w lokalizacji dostępnej dla serwera ArcGIS GeoAnalytics Server. Element udostępnionego pliku dużych zbiorów danych w portalu umożliwia przeglądanie zarejestrowanych danych w narzędziach serwera ArcGIS GeoAnalytics Server. Udostępnione pliki dużych zbiorów danych mogą odwoływać się do następujących źródeł danych:

  • Udostępniony plik — katalog zestawów danych na dysku lokalnym lub udostępniony w sieci.
  • System plików HDFS — katalog systemu plików Apache HDFS (Apache Hadoop Distributed File System) z zestawami danych.
  • Hurtownia danych Hive — bazy danych Apache Hive zawierające metadane.
  • Magazyn w chmurze — zasobnik Amazon Simple Storage Service (S3), kontener obiektów BLOB platformy Microsoft Azure lub usługa Data Lake Store platformy Microsoft Azure zawierająca katalog zestawów danych.
    Notatka:

    Obsługa usługi Data Lake Store platformy Microsoft Azure została dodana w oprogramowaniu ArcGIS Enterprise 10.6.1.

Notatka:

Udostępniony plik dużych zbiorów danych jest dostępny tylko wtedy, gdy administrator portalu włączył serwer GeoAnalytics Server. Więcej informacji o włączaniu serwera GeoAnalytics Server zawiera temat Konfigurowanie serwera ArcGIS GeoAnalytics Server.

Użycie udostępnionego pliku dużych zbiorów danych wspólnego dla wszystkich źródeł danych daje kilka korzyści. Można przechowywać dane w dostępnej lokalizacji, dopóki użytkownik nie będzie gotowy do wykonania analizy. Udostępniony plik dużych zbiorów danych uzyskuje dostęp do danych podczas wykonywania analizy, dlatego można dodawać nowe dane do istniejącego zestawu danych w udostępnionym pliku dużych zbiorów danych bez konieczności ponownego rejestrowania lub publikowania danych. Ponadto można zmodyfikować manifest, aby usunąć, dodać lub zaktualizować zestawy danych w udostępnionym pliku dużych zbiorów danych. Udostępnione pliki dużych zbiorów danych są niezwykle elastyczne pod względem definiowania czasu i geometrii, jak również dzięki możliwości użycia wielu formatów czasu w pojedynczym zestawie danych. Udostępnione pliki dużych zbiorów danych umożliwiają również partycjonowanie zestawów danych przy jednoczesnym traktowaniu wielu partycji jako pojedynczego zestawu danych.

Notatka:

Udostępnione pliki dużych zbiorów danych są dostępne tylko wówczas, gdy są uruchomione narzędzia Narzędzia analiz geoprzestrzennych. Oznacza to, że możliwe jest tylko przeglądanie udostępnionych plików dużych zbiorów danych i dodawanie ich do analizy. Nie można ich przedstawiać na mapie.

Udostępnione pliki dużych zbiorów danych są jednym ze sposobów uzyskiwania dostępu do danych przy użyciu narzędzi Narzędzia analiz geoprzestrzennych. Listę możliwych danych wejściowych narzędzi Narzędzia analiz geoprzestrzennych zawiera temat Korzystanie z narzędzi Map Viewer w przeglądarce map Narzędzia analiz geoprzestrzennych.

Następujące typy plików są obsługiwane jako zestawy danych w udostępnionych plikach dużych zbiorów danych:

  • Pliki rozdzielane (takie jak .csv, .tsv i .txt)
  • Pliki shape (.shp)
  • Pliki parquet (.gz.parquet)
  • Pliki ORC (orc.crc)

Przygotowanie danych do zarejestrowania jako udostępnionych plików dużych zbiorów danych

Udostępnione pliki i systemy plików HDFS

W celu przygotowania danych dla udostępnionych plików dużych zbiorów danych należy sformatować zestawy danych jako podfoldery w tym samym folderze nadrzędnym, który zostanie zarejestrowany. Nazwy podfolderów w tym zarejestrowanym folderze nadrzędnym reprezentują nazwy zestawów danych. Jeśli podfoldery zawierają wiele folderów lub plików, cała zawartość podfolderów najwyższego poziomu jest odczytywana jako pojedynczy zestaw danych. W całym zestawie danych musi być używany ten sam schemat. Poniżej przedstawiono przykład sposobu rejestrowania folderu FileShareFolder, który zawiera trzy zestawy danych o nazwach Earthquakes, Hurricanes i GlobalOceans. Podczas rejestrowania folderu nadrzędnego wszystkie podkatalogi znajdujące się w podanym folderze są również rejestrowane na serwerze GeoAnalytics Server. Zawsze należy rejestrować folder nadrzędny (na przykład \\machinename\FileShareFolder), który zawiera jeden lub większą liczbę folderów pojedynczych zestawów danych.

Przykład udostępnionego pliku dużych zbiorów danych zawierającego trzy zestawy danych: Earthquakes (Trzęsienia ziemi), Hurricanes (Huragany) i GlobalOceans (Oceany globalne).

|---FileShareFolder                 < -- The top-level folder is what is registered as a big data file share
   |---Earthquakes                  < -- A dataset "Earthquakes", composed of 4 csvs with the same schema
      |---1960
         |---01_1960.csv
         |---02_1960.csv
      |---1961
         |---01_1961.csv
         |---02_1961.csv
   |---Hurricanes                   < -- The dataset "Hurricanes", composed of 3 shapefiles with the same schema
      |---atlantic_hur.shp
      |---pacific_hur.shp
      |---otherhurricanes.shp
   |---GlobalOceans                 < -- The dataset "GlobalOceans", composed of a single shapefile
      |---oceans.shp

Ta sama struktura jest stosowana do udostępnionych plików oraz do systemów plików HDFS, a różnice polegają jedynie na użyciu innej terminologii. W udostępnionym pliku istnieje folder lub katalog najwyższego poziomu, a zestawy danych są reprezentowane przez podfoldery. W systemie plików HDFS rejestrowana jest lokalizacja udostępnionego pliku zawierającego zestawy danych. W następującej tabeli podano różnice:

Udostępniony plikSystem plików HDFS

Lokalizacja udostępnionego pliku dużych zbiorów danych

Folder lub katalog

Ścieżka w systemie plików HDFS

Zestawy danych

Podfoldery najwyższego poziomu

Zestawy danych w obrębie ścieżki w systemie plików HDFS

Po zorganizowaniu danych w postaci folderu z podfolderami zestawów danych należy udostępnić dane dla serwera GeoAnalytics Server, wykonując czynności opisane w sekcji Udostępnianie danych dla serwera ArcGIS Server i zarejestrować folder zestawu danych.

Uzyskiwanie dostępu do systemu plików HDFS z użyciem rozwiązania Kerberos

W oprogramowaniu ArcGIS Enterprise 10.6.1 serwer GeoAnalytics Server może uzyskać dostęp do systemu plików HDFS z użyciem uwierzytelniania Kerberos.

Wykonaj poniższe czynności, aby zarejestrować udostępnianie plików systemu plików HDFS z użyciem uwierzytelniania Kerberos:

  1. Zaloguj się w witrynie GeoAnalytics Server z poziomu aplikacji ArcGIS Server Administrator Directory.

    Aplikacja ArcGIS Server Administrator Directory wymaga zalogowania się jako administrator. Aby połączyć się ze sfederowaną witryną GeoAnalytics Server, zaloguj się za pomocą tokena portalu, który wymaga uprawnień administratora portalu, lub jako główny administrator witryny GeoAnalytics Server. Jeśli nie jesteś administratorem portalu lub nie posiadasz dostępu do konta głównego administratora witryny, poproś administratora portalu, aby wykonał te czynności za Ciebie.

  2. Przejdź do opcji data (dane) > registerItem (rejestruj element).
  3. Skopiuj poniższy tekst i wklej go do pola tekstowego Element. Zaktualizuj następujące wartości:

    • <bigDataFileShareName>: zastąp tę wartość nazwą udostępnionego pliku dużych zbiorów danych.
    • <hdfs path>: zastąp tę wartość pełną nazwą ścieżki w systemie plików do udostępnionego pliku dużych zbiorów danych, na przykład hdfs://domainname:port/folder.
    • <user@realm>: zastąp tę wartość nazwą użytkownika i dziedziną podmiotu.
    • <keytab location>: zastąp tę wartość położeniem pliku keytab. Plik keytab musi być dostępny dla wszystkich komputerów w witrynie GeoAnalytics Server, na przykład //shared/keytab/hadoop.keytab.

    {
       "path": "/bigDataFileShares/<bigDataFileShareName>",
       "type": "bigDataFileShare",
       "info": 
             {
              "connectionString": "{\"path\":\"<hdfs path>",\"accessMode\":\"Kerberos\",\"principal\":\"user@realm\",\"keytab\":\"<keytab location>\"}",
              "connectionType": "hdfs"
             }
    }
      
    

  4. Kliknij przycisk Zarejestruj element.

    Po zarejestrowaniu elementu udostępniony plik dużych zbiorów danych pojawi się jako magazyn w chmurze w aplikacji ArcGIS Server Manager z zapełnionym manifestem. Jeśli manifest nie został zapełniony, przejdź do etapu 5.

  5. Zaloguj się w witrynie GeoAnalytics Server w aplikacji ArcGIS Server Manager.

    Możesz zalogować się jako publikujący lub administrator.

  6. Przejdź do opcji Witryna > Magazyny danych i kliknij przycisk Wygeneruj ponownie manifest dla nowego udostępnionego pliku dużych zbiorów danych.

Masz teraz udostępniony plik dużych zbiorów danych oraz manifest dla systemu plików HDFS dostępne z użyciem uwierzytelniania Kerberos. Udostępniony plik dużych zbiorów danych wskazuje usługę katalogową dużych zbiorów danych na serwerze GeoAnalytics Server.

Hurtownia danych Hive

W hurtowni danych Hive wszystkie tabele w bazie danych są rozpoznawane jako zestawy danych w udostępnionym pliku dużych zbiorów danych. W poniższym przykładzie występuje magazyn metadanych zawierający dwie bazy danych: default i CityData. Podczas rejestrowania udostępnionego pliku dużych zbiorów danych Hive za pośrednictwem serwera ArcGIS Server na serwerze GeoAnalytics Server można wybrać tylko jedną bazę danych. W tym przykładzie po wybraniu bazy danych CityData w udostępnionym pliku dużych zbiorów danych będą zawarte dwa zestawy danych: FireData i LandParcels.

|---HiveMetastore                 < -- The top-level folder is what is registered as a big data file share
   |---default                    < -- A database
      |---Earthquakes
      |---Hurricanes
      |---GlobalOceans
   |---CityData				               < -- A database that is registered (specified in Server Manager)
      |---FireData
      |---LandParcels

Magazyny w chmurze

Wyróżnia się trzy etapy rejestrowania udostępnionego pliku dużych zbiorów danych typu Magazyn w chmurze.

Przygotowanie danych

W celu przygotowania danych dla udostępnionych plików dużych zbiorów danych w magazynie w chmurze należy sformatować zestawy danych jako podfoldery w tym samym folderze nadrzędnym.

Poniżej podano przykład odpowiedniej struktury danych. W tym przykładzie rejestrowany jest folder nadrzędny FileShareFolder, który zawiera trzy zestawy danych: Earthquakes, Hurricanes oraz GlobalOceans. Podczas rejestrowania folderu nadrzędnego wszystkie podkatalogi znajdujące się w podanym folderze są również rejestrowane na serwerze GeoAnalytics Server.

Przykład struktury danych w magazynie w chmurze, który będzie wykorzystywany jako udostępniony plik dużych zbiorów danych. Taki udostępniony plik dużych zbiorów danych zawiera trzy zestawy danych: Earthquakes (Trzęsienia ziemi), Hurricanes (Huragany) i GlobalOceans (Oceany globalne).

|---Cloud Store                          < -- The cloud store being registered
   |---Container or S3 Bucket Name       < -- The container (Azure) or bucket (Amazon) being registered as part of the cloud store
      |---FileShareFolder                < -- The parent folder that is registered as the 'folder' during cloud store registration
         |---Earthquakes                 < -- The dataset "Earthquakes", composed of 4 csvs with the same schema
            |---1960
               |---01_1960.csv
               |---02_1960.csv
            |---1961
               |---01_1961.csv
               |---02_1961.csv
         |---Hurricanes                  < -- The dataset "Hurricanes", composed of 3 shapefiles with the same schema
            |---atlantic_hur.shp
            |---pacific_hur.shp
            |---otherhurricanes.shp
         |---GlobalOceans                < -- The dataset "GlobalOceans", composed of 1 shapefile
            |---oceans.shp

Zarejestruj magazyn w chmurze na serwerze GeoAnalytics Server.

Połącz się ze swoją witryną na serwerze GeoAnalytics Server z poziomu aplikacji ArcGIS Server Manager, aby zarejestrować magazyn w chmurze. Przy rejestrowaniu magazynu w chmurze należy podać nazwę kontenera Azure, nazwę zasobnika Amazon S3 lub nazwę konta usługi Data Lake Store platformy Azure. Dodatkowo zalecane jest podanie folderu w kontenerze lub zasobniku. Określony folder składa się z podfolderów, z których każdy odpowiada poszczególnym zestawom danych. Każdy zestaw danych składa się ze wszystkich zasobów w podfolderze.

Rejestracja magazynu w chmurze jako udostępnionego pliku dużych zbiorów danych

Aby zarejestrować magazyn w chmurze utworzony w poprzedniej sekcji jako udostępniony plik dużych zbiorów danych, wykonaj poniższą procedurę:

  1. Zaloguj się na stronie GeoAnalytics Server z poziomu aplikacji ArcGIS Server Manager.

    Możesz zalogować się jako publikujący lub administrator.

  2. Przejdź do sekcji Witryna > Magazyny danych i wybierz opcję Udostępniony plik dużych zbiorów danych z listy rozwijanej Zarejestruj.
  3. Wprowadź następujące informacje w oknie dialogowym Rejestracja udostępnionego pliku dużych zbiorów danych:
    1. Wprowadź nazwę dla udostępnionego pliku dużych zbiorów danych.
    2. Wybierz opcję Magazyn w chmurze z listy rozwijanej Typ.
    3. Wybierz nazwę magazynu w chmurze z listy rozwijanej Magazyn w chmurze.
    4. Kliknij przycisk Utwórz, aby zarejestrować magazyn w chmurze jako udostępniony plik dużych zbiorów danych.

Posiadasz teraz udostępniony pliku dużych zbiorów danych oraz manifest dla magazynu w chmurze. Udostępniony plik dużych zbiorów danych wskazuje usługę katalogową dużych zbiorów danych na serwerze GeoAnalytics Server.

Rejestrowanie udostępnionego pliku dużych zbiorów danych

Aby zarejestrować udostępniony plik, HDFS lub chmurę Hive jak udostępniony plik dużych zbiorów danych, połącz się z witryną GeoAnalytics Server za pomocą aplikacji ArcGIS Server Manager. Szczegółowe informacje oraz opis procedury rejestracji zawiera temat Rejestrowanie danych na serwerze ArcGIS Server przy użyciu aplikacji Manager w pomocy do serwera ArcGIS Server.

Wskazówka:

Procedurę rejestrowania magazynu w chmurze jako udostępnionego pliku dużych zbiorów danych opisano w poprzedniej sekcji.

Podczas rejestrowania udostępnionego pliku dużych zbiorów danych generowany jest plik manifestu, w którym opisany jest format zestawów danych w lokalizacji udostępnionego pliku, w tym pola reprezentujące geometrię i czas. W portalu tworzony jest element udostępnionego pliku dużych zbiorów danych, który wskazuje usługę katalogową dużych zbiorów danych na serwerze GeoAnalytics Server, na którym zarejestrowano dane. Więcej informacji na temat usług katalogowych dużych zbiorów danych można znaleźć w dokumentacji usługi katalogowe dużych zbiorów danych w pomocy do interfejsu ArcGIS Services REST API.

Modyfikowanie udostępnionego pliku dużych zbiorów danych

Podczas tworzenia usługi katalogowej dużych zbiorów danych automatycznie generowany jest plik manifestu, który zostaje przesłany do witryny serwera GeoAnalytics Server, na którym zarejestrowano dane. Proces generowania pliku manifestu nie zawsze poprawnie szacuje pola reprezentujące geometrię i czas, więc czasami może być konieczne wprowadzenie zmian w tym pliku. Aby zmodyfikować plik manifestu, wykonaj czynności opisane w temacie Edycja udostępnionego pliku dużych zbiorów danych w aplikacji Manager. Więcej informacji na temat pliku manifestu udostępnionego pliku dużych zbiorów danych zawiera sekcja Podstawowe informacje o pliku manifestu udostępnionego pliku dużych zbiorów danych w pomocy do serwera ArcGIS Server.

Uruchamianie analizy na udostępnionym pliku dużych zbiorów danych

Analizę na zestawach danych w udostępnionym pliku dużych zbiorów danych można uruchomić za pomocą dowolnej aplikacji klienckiej, która obsługuje serwer GeoAnalytics Server. Są to następujące aplikacje klienckie:

  • ArcGIS Pro
  • Map Viewer
  • ArcGIS REST API
  • ArcGIS API for Python

Aby przeprowadzić analizę na udostępnionym pliku dużych zbiorów danych za pomocą aplikacji ArcGIS Pro lub przeglądarki map Map Viewer, należy wybrać narzędzie Narzędzia analiz geoprzestrzennych, które ma być używane. Aby określić dane wejściowe dla narzędzia, należy odnaleźć miejsce przechowywania danych w obszarze Portal aplikacji ArcGIS Pro lub w oknie dialogowym Przeglądaj warstwy przeglądarki map Map Viewer. Jeśli dane zostały zarejestrowane samodzielnie, znajdują się w obszarze Moje zasoby. W przeciwnym razie należy ich szukać w obszarze Grupy lub Cały portal. Należy pamiętać, że warstwa udostępnionego pliku dużych zbiorów danych wybrana na potrzeby analizy nie będzie wyświetlana na mapie.

Notatka:

Konieczne jest zalogowanie na koncie portalu z uprawnieniami pozwalającymi na dostęp do zarejestrowanego udostępnionego pliku dużych zbiorów danych. Aby szybko odnaleźć wszystkie udostępnione pliki dużych zbiorów danych, do których można uzyskać dostęp, należy wyszukać w portalu termin bigDataFileShare*.

Aby przeprowadzić analizę na udostępnionym pliku dużych zbiorów danych za pomocą interfejsu ArcGIS REST API, w danych wejściowych należy użyć adresu URL usługi katalogowej dużego zbioru danych. Ma on format {"url":" https://webadaptorhost.domain.com/webadaptorname/rest/DataStoreCatalogs/bigDataFileShares_filesharename/BigDataCatalogServer/dataset"}. Na przykład w przypadku komputera o nazwie example, domeny o nazwie esri, adaptera internetowego o nazwie server, udostępnionego pliku dużych zbiorów danych o nazwie MyData i zestawu danych o nazwie Earthquakes, adres URL jest następujący: {"url":" https://example.esri.com/server/rest/DataStoreCatalogs/bigDataFileShares_MyData/BigDataCatalogServer/Earthquakes"}. Więcej informacji na temat danych wejściowych analizy dużych zbiorów danych za pomocą usług REST można znaleźć w sekcji Dane wejściowe obiektów znajdującej się w dokumentacji interfejsu ArcGIS Services REST API.