Skip To Content

빅데이터 파일 공유란?

빅데이터 파일 공유

빅데이터 파일 공유는 포털에 생성되는 항목으로, ArcGIS GeoAnalytics Server에서 사용 가능한 위치에 있는 포인트, 폴리라인, 폴리곤, 테이블 형식 데이터 등의 피처 데이터를 참조합니다. 포털의 빅데이터 파일 공유 항목을 사용하면 ArcGIS GeoAnalytics Server 도구를 사용하여 등록된 데이터를 찾아볼 수 있습니다. 빅데이터 파일 공유는 다음 데이터 원본을 참조할 수 있습니다.

  • 파일 공유 - 로컬 디스크 또는 네트워크 공유의 데이터셋 디렉터리
  • HDFS - 데이터셋의 HDFS(Hadoop Distributed File System) 디렉터리
  • Hive - 메타 저장소 데이터베이스
  • 클라우드 저장소 - 데이터셋 디렉터리가 포함된 Microsoft Azure Blob 컨테이너 또는 AWS(Amazon Web Services) S3(Simple Storage Service) 버킷. 클라우드 저장소는 ArcGIS 10.5.1부터 사용할 수 있습니다.

참고 사항:

포털 관리자가 GeoAnalytics Server를 활성화한 경우에만 빅데이터 파일 공유를 사용할 수 있습니다. GeoAnalytics Server 활성화에 대한 자세한 내용은 ArcGIS GeoAnalytics Server 설정을 참고하세요.

모든 데이터 원본에 공통적으로 적용되는 빅데이터 파일 공유를 사용하는 경우 여러 가지 이점이 제공됩니다. 분석을 수행할 준비가 될 때까지 접근 가능한 위치에 데이터를 보관할 수 있습니다. 빅데이터 파일 공유는 분석을 실행할 때 데이터에 접근하므로 데이터를 다시 등록하거나 발행하지 않고도 빅데이터 파일 공유의 기존 데이터셋에 데이터를 계속 더 추가할 수 있습니다. 매니페스트를 수정하여 빅데이터 파일 공유의 데이터셋을 제거, 추가 또는 업데이트할 수도 있습니다. 빅데이터 파일 공유에서는 시간과 지오메트리를 매우 유동적으로 정의할 수 있으며 단일 데이터셋에서 여러 시간 형식을 사용할 수 있습니다. 또한 빅데이터 파일 공유에서는 데이터셋을 분할하되 여러 파티션을 계속 단일 데이터셋으로 처리할 수도 있습니다.

참고 사항:

GeoAnalytics Tools가 실행된 경우에만 빅데이터 파일 공유에 접근할 수 있습니다. 따라서 빅데이터 파일을 찾아 분석에 추가할 수만 있으며 맵에서 데이터를 시각화할 수는 없습니다.

빅데이터 파일 공유는 GeoAnalytics Tools로 데이터에 접근할 수 있는 여러 가지 방법 중 하나입니다. 사용 가능한 GeoAnalytics Tools 데이터 입력 목록에 대해서는 포털 맵 뷰어에서 GeoAnalytics Tools 사용을 참고하세요.

빅데이터 파일 공유로 등록할 데이터 준비

파일 공유 및 HDFS

빅데이터 파일 공유용으로 데이터를 준비하려면 등록할 단일 상위 폴더 아래의 하위 폴더로 데이터셋 서식을 지정해야 합니다. 등록하는 이 상위 폴더 내의 하위 폴더 이름은 데이터셋 이름을 나타냅니다. 하위 폴더에 여러 폴더 또는 파일이 포함되어 있으면 최상위 하위 폴더의 모든 콘텐츠를 단일 데이터셋으로 읽습니다. 아래에는 데이터셋 3개(FileShareFolder, Earthquakes, Hurricanes)가 포함된 GlobalOceans 폴더를 등록하는 방법의 예시가 나와 있습니다. 상위 폴더를 등록하면 지정한 폴더 아래의 모든 하위 디렉터리도 GeoAnalytics Server에 등록됩니다. 항상 개별 데이터셋 폴더가 하나 이상 포함된 상위 폴더(예시: \\machinename\FileShareFolder)를 등록하세요.

데이터셋 3개(Earthquakes, Hurricanes, GlobalOceans)가 포함된 빅데이터 파일 공유의 예시는 다음과 같습니다.

|---FileShareFolder                 < -- The top-level folder is what is registered as a big data file share
   |---Earthquakes                  < -- A dataset is all files and folders within the top-level subfolder
      |---1960
         |---01_1960.csv
         |---02_1960.csv
      |---1961
         |---01_1961.csv
         |---02_1961.csv
   |---Hurricanes
      |---atlantic_hur.shp
      |---pacific_hur.shp
      |---otherhurricanes.shp
   |---GlobalOceans
      |---oceans.shp

이와 같은 구조가 파일 공유와 HDFS에 모두 적용되지만 관련 용어는 서로 다릅니다. 파일 공유에는 최상위 폴더(디렉터리)가 있으며 데이터셋은 하위 디렉터리로 나타납니다. HDFS에서는 파일 공유 위치가 등록되고 데이터셋을 포함합니다. 다음 표에 차이점이 요약되어 있습니다.

파일 공유HDFS

빅데이터 파일 공유 위치

폴더/디렉터리

HDFS 경로

데이터셋

최상위 하위 폴더

HDFS 경로 내의 데이터셋

데이터를 데이터셋 하위 폴더가 포함된 폴더로 구성한 후에는 ArcGIS Server에서 접근할 수 있도록 데이터 설정의 단계를 수행하여 GeoAnalytics Server에서 데이터에 접근할 수 있도록 설정하고 데이터셋 폴더를 등록합니다.

Hive

Hive에서는 데이터베이스의 모든 테이블이 빅데이터 파일 공유의 데이터셋으로 인식됩니다. 다음 예시에는 데이터베이스 두 개(default, CityData)가 포함된 메타 저장소가 나와 있습니다. ArcGIS Server를 통해 Hive 빅데이터 파일 공유를 GeoAnalytics Server에 등록할 때는 데이터베이스를 하나만 선택할 수 있습니다. 이 예시에서 CityData 데이터베이스를 선택하면 빅데이터 파일 공유에는 데이터셋 두 개(FireData, LandParcels)가 포함됩니다.

|---HiveMetastore                 < -- The top-level folder is what is registered as a big data file share   |---default                    < -- A database      |---Earthquakes      |---Hurricanes      |---GlobalOceans   |---CityData				               < -- A database that is registered (specified in Server Manager)      |---FireData      |---LandParcels

클라우드 저장소

클라우드 저장소 유형의 빅데이터 파일 공유를 등록하는 세 단계가 있습니다.

데이터 준비

클라우드 저장소에서 빅데이터 파일 공유용 데이터를 준비하려면 단일 상위 폴더 아래의 하위 폴더로 데이터셋 서식을 지정해야 합니다.

다음은 데이터 구조화 방법의 예시입니다. 이 예시에서는 세 개의 데이터셋(Earthquakes, Hurricanes, GlobalOceans)인 포함된 상위 폴더인 FileShareFolder를 등록합니다. 상위 폴더를 등록하면 지정한 폴더 아래의 모든 하위 디렉터리도 GeoAnalytics Server에 등록됩니다.

클라우드 저장소에서 빅데이터 파일 공유로 사용할 데이터를 구조화하는 방법에 대한 예시. 이 빅데이터 파일에는 세 개의 데이터셋(Earthquakes, Hurricanes 및 GlobalOceans)이 포함되어 있습니다.

|---Cloud Store                          < -- The cloud store being registered
   |---Container or S3 Bucket Name       < -- The container (Azure) or bucket (Amazon) being registered as part of the cloud store
      |---FileShareFolder                < -- The parent folder that is registered as the 'folder' during cloud store registration
         |---Earthquakes                 < -- The dataset "Earthquakes" composed of 4 csvs
            |---1960
               |---01_1960.csv
               |---02_1960.csv
            |---1961
               |---01_1961.csv
               |---02_1961.csv
         |---Hurricanes                  < -- The dataset "Hurricanes" composed of 3 shapefiles
            |---atlantic_hur.shp
            |---pacific_hur.shp
            |---otherhurricanes.shp
         |---GlobalOceans                < -- The dataset "GlobalOceans" composed of 1 shapefile
            |---oceans.shp

클라우드 저장소를 등록합니다. GeoAnalytics Server

ArcGIS Server Manager에서 GeoAnalytics Server 사이트에 연결하여 클라우드 저장소를 등록합니다. 클라우드 저장소를 등록할 때 Azure 컨테이너 이름 또는 AWS S3 버킷과 해당 컨테이너 또는 버킷 내의 폴더를 포함해야 합니다. 지정한 폴더는 각각 개별 데이터셋을 나타내는 하위 폴더로 구성됩니다. 각 데이터셋은 하위 폴더의 모든 콘텐츠로 구성됩니다.

클라우드 저장소를 빅데이터 파일 공유로 등록

클라우드 저장소를 빅데이터 파일 공유로 저장하는 방법은 사용하는 클라우드 저장소에 따라 다릅니다.

이전 섹션에서 생성한 AWS S3 클라우드 저장소를 빅데이터 파일 공유로 등록하려면 다음 단계를 따릅니다.

  1. ArcGIS Server Manager에서 GeoAnalytics Server 사이트에 로그인합니다.

    발행자 또는 관리자로 로그인할 수 있습니다.

    참고 사항:

    GeoAnalytics Server 10.5.1에서는 IAM 자격 증명을 사용하여 AWS 클라우드 저장소를 등록할 수 없습니다.

  2. 사이트 > 데이터 저장소로 이동하여 등록 드롭다운 목록에서 빅데이터 파일 공유를 선택합니다.
  3. 빅데이터 파일 공유 등록 대화 상자에서 다음 정보를 제공합니다.
    1. 빅데이터 파일 공유의 이름을 입력합니다.
    2. 유형 드롭다운 목록에서 클라우드 저장소를 선택합니다.
    3. 클라우드 저장소 드롭다운 목록에서 AWS 클라우드 저장소의 이름을 선택합니다.
    4. 생성을 클릭하여 클라우드 저장소를 빅데이터 파일 공유로 등록합니다.

이제 AWS 클라우드 저장소에 대한 빅데이터 파일 공유 및 매니페스트가 생성되었습니다. 포털의 빅데이터 파일 공유 항목은 GeoAnalytics Server의 빅데이터 카탈로그 서비스를 가리킵니다.

이전 섹션에서 생성한 Azure 클라우드 저장소를 빅데이터 파일 공유로 등록하려면 다음 단계를 따릅니다.

  1. ArcGIS Server Administrator Directory에서 GeoAnalytics Server 사이트에 로그인합니다.

    ArcGIS Server Administrator Directory에 관리자로 로그인해야 합니다. 페더레이션된 GeoAnalytics Server 사이트에 연결하려면 포털 관리자의 자격 증명이 필요한 포털 토큰을 사용하여 로그인하거나 GeoAnalytics Server 사이트의 프라이머리 사이트 관리자로 로그인합니다. 포털 관리자가 아니거나 프라이머리 사이트 관리자 계정 정보에 대한 접근 권한이 없는 경우 포털 관리자에게 이러한 단계를 완료해 달라고 요청합니다.

  2. 데이터 > registerItem로 이동합니다.
  3. 다음 텍스트를 복사하여 항목 텍스트 상자에 붙여넣습니다. <bigDataFileShareName> 값을 빅데이터 파일 공유 이름으로 업데이트하고, <cloudStoreName> 값을 GeoAnalytics Server 사이트에 등록할 때 Azure 클라우드 저장소에 대해 지정한 이름으로 업데이트합니다.

    {
       "path": "/bigDataFileShares/<bigDataFileShareName>",
       "type": "bigDataFileShare",
       "info": {
       "connectionString": "{\"path\" : \"/cloudStores/<cloudStoreName>\"}",
       "connectionType": "dataStore"
       }
       }
    

  4. 항목 등록을 클릭합니다.

    항목이 등록되면 빅데이터 파일 공유가 ArcGIS Server Manager에 데이터 저장소로 표시됩니다.

  5. ArcGIS Server Manager에서 GeoAnalytics Server 사이트GeoAnalytics Server 사이트에 로그인합니다.

    발행자 또는 관리자로 로그인할 수 있습니다.

  6. 사이트 > 데이터 저장소로 이동하여 새 빅데이터 파일 공유 옆의 매니페스트 재생성 버튼을 클릭합니다.

이제 Azure 클라우드 저장소에 대한 빅데이터 파일 공유 및 매니페스트가 생성되었습니다. 포털의 빅데이터 파일 공유 항목은 GeoAnalytics Server의 빅데이터 카탈로그 서비스를 가리킵니다.

빅데이터 파일 공유 등록

파일 공유, HDFS 또는 Hive 클라우드 저장소를 빅데이터 파일 공유로 등록하려면 ArcGIS Server Manager를 통해 GeoAnalytics Server 사이트에 연결합니다. 수행해야 하는 단계에 대한 세부정보는 ArcGIS Server 도움말의 Manager를 사용하여 ArcGIS Server에 데이터 등록을 참고하세요.

팁:

클라우드 저장소를 빅데이터 파일 공유로 등록하는 단계는 이전 섹션에서 다루었습니다.

빅데이터 파일 공유를 등록하면 지오메트리와 시간을 나타내는 필드를 비롯하여 공유 위치 내의 데이터셋 형식을 대략적으로 설명하는 매니페스트가 생성됩니다. 그리고 데이터를 등록한 GeoAnalytics Server의 빅데이터 카탈로그 서비스를 가리키는 빅데이터 파일 공유 항목이 포털에 생성됩니다. 빅데이터 카탈로그 서비스에 대한 자세한 내용은 ArcGIS Services REST API 도움말의 빅데이터 카탈로그 서비스 설명서를 참고하세요.

빅데이터 파일 공유 수정

빅데이터 카탈로그 서비스를 생성하면 매니페스트가 자동으로 생성되어 데이터를 등록한 GeoAnalytics Server 사이트에 업로드됩니다. 하지만 매니페스트 생성 프로세스에서 지오메트리와 시간을 나타내는 필드를 항상 정확하게 예측하는 것은 아니므로 편집 사항을 적용해야 할 수 있습니다. 매니페스트를 편집하려면 Manager에서 빅데이터 파일 공유 편집의 단계를 수행합니다. 빅데이터 파일 공유 매니페스트에 대한 자세한 내용은 ArcGIS Server 도움말의 빅데이터 파일 공유 매니페스트 이해를 참고하세요.

빅데이터 파일 공유에 대한 분석 실행

GeoAnalytics Server를 지원하는 다음과 같은 클라이언트를 통해 빅데이터 파일 공유의 데이터셋에 대한 분석을 실행할 수 있습니다.

  • ArcGIS Pro
  • Portal for ArcGIS 맵 뷰어
  • ArcGIS REST API

ArcGIS Pro 또는 Portal for ArcGIS 맵 뷰어를 통해 빅데이터 파일 공유에 대한 분석을 실행하려면 사용하려는 GeoAnalytics Tools를 선택합니다. 도구 입력으로는 ArcGIS Pro포털이나 Portal for ArcGIS 맵 뷰어의 레이어 찾아보기 대화 상자에서 데이터의 위치를 찾습니다. 데이터는 직접 등록한 경우 내 콘텐츠에 있습니다. 그 외의 경우에는 그룹 또는 모든 포털을 확인하세요. 분석용으로 선택한 빅데이터 파일 공유 레이어는 맵에 나타나지 않습니다.

참고 사항:

등록된 빅데이터 파일 공유 접근 권한이 있는 포털 계정으로 로그인해야 합니다. 검색어 bigDataFileShare*를 사용하면 포털을 검색해 접근 가능한 모든 빅데이터 파일 공유를 빠르게 찾을 수 있습니다.

ArcGIS REST API를 통해 빅데이터 파일 공유에 대한 분석을 실행하려면 빅데이터 카탈로그 서비스 URL을 입력으로 사용합니다. 이 URL의 형식은 {"url":" https://webadaptorhost.domain.com/webadaptorname/rest/DataStoreCatalogs/bigDataFileShares_filesharename/BigDataCatalogServer/dataset"}입니다. 예를 들어 머신이 example, 도메인이 esri, Web Adaptor가 server, 빅데이터 파일 공유가 MyData, 데이터셋이 Earthquakes이면 URL은 다음과 같습니다. {"url":" https://example.esri.com/server/rest/DataStoreCatalogs/bigDataFileShares_MyData/BigDataCatalogServer/Earthquakes"}. REST를 통한 빅데이터 분석의 입력에 대한 자세한 내용은 ArcGIS Services REST API 설명서의 피처 입력 항목을 참고하세요.