Skip To Content

빅데이터 파일 공유 시작하기

비고:

10.9.1 이후 버전에서 포털 콘텐츠 페이지를 통해 빅데이터 파일 공유를 등록합니다. 빅데이터 파일 공유를 등록하는 데 권장되는 방법입니다. Server Manager를 사용하여 빅데이터 파일 공유를 생성했으며 포털의 빅데이터 파일 공유로 대체하지 않은 경우 편집 시 Server Manager만 사용합니다.

빅데이터 파일 공유는 포털에 생성되는 항목이며 ArcGIS GeoAnalytics Server에서 사용 가능한 위치를 참조합니다. 빅데이터 파일 공유 위치는 GeoAnalytics 도구의 피처 데이터(포인트, 폴리라인, 폴리곤, 테이블 형식 데이터)에 대한 입력 및 결과로 사용할 수 있습니다. 포털 콘텐츠 페이지를 통해 빅데이터 파일 공유를 만드는 경우 최소 2개의 항목이 포털에 생성됩니다.

  • 데이터 스토어(빅데이터 파일 공유) 항목
  • 빅데이터 파일 공유 항목
  • 빅데이터 파일 공유에 대해 클라우드 저장소 데이터 스토어를 등록하는 경우 데이터 스토어(클라우드 스토리지 위치) 항목
빅데이터 파일 공유 항목은 빅데이터 카탈로그 서비스를 가리키며 빅데이터 파일 공유의 데이터셋과 해당 스키마(지오메트리, 시간 정보 포함) 및 등록한 결과 형식(템플릿이라고 함)을 설명합니다. ArcGIS GeoAnalytics Server 도구의 입력에 빅데이터 파일 공유를 사용하는 경우 빅데이터 파일 공유 항목을 찾아 데이터셋에 대한 분석을 실행할 수 있습니다.

비고:

포털 관리자가 GeoAnalytics Server를 활성화한 경우에만 빅데이터 파일 공유를 사용할 수 있습니다. GeoAnalytics Server 활성화에 대해 자세히 알아보려면 ArcGIS GeoAnalytics Server 설정을 참고하세요.

빅데이터 파일 공유

빅데이터 파일 공유를 사용하면 여러 가지 이점이 제공됩니다.

  • 분석을 수행할 준비가 될 때까지 접근 가능한 위치에 데이터를 보관할 수 있습니다. 빅데이터 파일 공유는 분석을 실행할 때 데이터에 접근하므로 데이터를 다시 등록하거나 발행하지 않고도 빅데이터 파일 공유의 기존 데이터셋에 데이터를 계속 더 추가할 수 있습니다.
  • 매니페스트를 수정하여 빅데이터 파일 공유의 데이터셋을 제거, 추가 또는 업데이트할 수도 있습니다.
  • 빅데이터 파일 공유에서는 시간과 지오메트리를 매우 유동적으로 정의할 수 있으며 단일 데이터셋에서 여러 시간 형식을 사용할 수 있습니다.
  • 또한 빅데이터 파일 공유에서는 데이터셋을 분할하되 여러 파티션을 계속 단일 데이터셋으로 처리할 수도 있습니다.
  • 결과 데이터에 빅데이터 파일 공유를 사용하면 추가 분석 또는 저장을 위한 Parquet 파일과 같이 다른 워크플로에 사용할 수 있는 형식으로 결과를 저장할 수 있습니다.

비고:

GeoAnalytics Tools가 실행된 경우에만 빅데이터 파일 공유에 접근할 수 있습니다. 따라서 빅데이터 파일을 찾아 분석에 추가할 수만 있으며 맵에서 데이터를 시각화할 수는 없습니다.

빅데이터 파일 공유는 다음 입력 데이터 원본을 참조할 수 있습니다.

  • 파일 공유 — 로컬 디스크 또는 네트워크 공유의 데이터셋 디렉터리
  • Apache Hadoop Distributed File System (HDFS) — 데이터셋의 HDFS 디렉터리
  • Apache HiveHive 메타스토어 데이터베이스
  • 클라우드 스토리지 — Amazon Simple Storage Service (S3) 버킷, Microsoft Azure Blob 컨테이너 또는 데이터셋 디렉터리를 포함하는 Microsoft Azure Data Lake Storage Gen2 저장소

결과를 빅데이터 파일 공유에 작성하는 경우 GeoAnalytics Tools에 대한 다음 결과를 사용할 수 있습니다.

  • 파일 공유
  • HDFS
  • 클라우드 스토리지 위치

다음과 같은 파일 형식이 빅데이터 파일 공유의 입력 및 결과를 위한 데이터셋으로 지원됩니다.

  • 구분된 파일(예시: .csv, .tsv.txt)
  • 쉐이프파일(.shp)
  • Parquet 파일(.parquet)
    비고:

    암호화되지 않은 parquet 파일만 지원됩니다.

  • ORC 파일(.orc)

빅데이터 파일 공유는 GeoAnalytics Tools로 데이터에 접근할 수 있는 여러 가지 방법 중 하나이며 GeoAnalytics Tools에 대한 요구 사항이 아닙니다. 사용 가능한 GeoAnalytics Tools 데이터 입력 및 결과 목록에 대해서는 Map Viewer ClassicGeoAnalytics Tools 사용을 참고하세요.

필요한 만큼 빅데이터 파일 공유를 등록할 수 있습니다. 각 빅데이터 파일 공유에는 원하는 만큼의 데이터셋을 포함할 수 있습니다. GeoAnalytics Server 사이트에 빅데이터 파일 공유를 등록하는 방법에 대한 지침은 빅데이터 파일 공유 추가를 참고하세요.

빅데이터 파일 공유 시 알아둬야할 중요한 용어가 아래 테이블에 설명되어 있습니다.

기간설명

빅데이터 파일 공유

GeoAnalytics Server에 등록된 위치이며 GeoAnalytics Tools에 데이터셋 입력, 결과 또는 입력과 결과 둘 다로 사용할 수 있습니다.

빅데이터 카탈로그 서비스

빅데이터 파일 공유의 입력 데이터셋과 스키마 및 결과 템플릿 이름을 설명하는 서비스입니다. 이 서비스는 빅데이터 파일 공유가 등록되고 매니페스트가 생성될 때 만들어집니다.

빅데이터 카탈로그 서비스에 대한 자세한 내용은 ArcGIS Services REST API 도움말의 빅데이터 카탈로그 서비스 설명서를 참고하세요.

빅데이터 파일 공유 항목

빅데이터 카탈로그 서비스를 참조하는 포털의 항목입니다. 포털에서 이 항목을 공유하여 GeoAnalytics에 대한 입력으로 빅데이터 파일 공유를 사용할 수 있는 사용자를 제어할 수 있습니다.

매니페스트

사용 가능한 데이터셋 및 빅데이터 파일 공유의 입력 스키마를 설명하는 JSON 파일입니다. 매니페스트는 빅데이터 파일 공유를 등록할 때 자동으로 생성되며 힌트 파일을 편집하거나 사용하여 수정할 수 있습니다. 단일 빅데이터 파일 공유에는 하나의 매니페스트가 있습니다.

결과 템플릿

빅데이터 파일 공유에 결과를 작성할 때 파일 형식 및 형식 지정(선택)에 대해 설명하는 하나 이상의 템플릿입니다. 예를 들어 템플릿은 결과가 쉐이프파일에 작성되도록 지정할 수 있습니다. 빅데이터 파일 공유에는 결과 템플릿을 포함하지 않거나 하나 이상의 결과 템플릿을 포함할 수 있습니다.

빅데이터 파일 공유 유형

등록 중인 위치의 유형입니다. 예를 들어 빅데이터 파일 공유를 포함하거나 HDFS를 입력할 수 있습니다.

빅데이터 파일 공유 데이터셋 형식

읽거나 작성 중인 데이터의 형식입니다. 예를 들어 파일 형식은 쉐이프파일일 수 있습니다.

힌트 파일

입력으로 사용되는 구분된 파일의 매니페스트를 생성하는 데 사용할 수 있는 선택적 파일입니다.

빅데이터 파일 공유로 등록할 데이터 준비

빅데이터 파일 공유에서 데이터셋을 입력으로 사용하려면 데이터 형식이 올바르게 지정되었는지 확인합니다. 빅데이터 파일 공유 유형을 기반으로 하는 형식 지정은 아래를 참고하세요.

파일 공유 및 HDFS

빅데이터 파일 공유용으로 데이터를 준비하려면 등록할 단일 상위 폴더 아래의 하위 폴더로 데이터셋 서식을 지정해야 합니다. 등록하는 이 상위 폴더 내의 하위 폴더 이름은 데이터셋 이름을 나타냅니다. 하위 폴더에 여러 폴더 또는 파일이 포함되어 있으면 최상위 하위 폴더의 모든 콘텐츠는 단일 데이터셋으로 읽으며 동일한 스키마를 공유해야 합니다. 아래에는 데이터셋 3개(Earthquakes, Hurricanes, GlobalOceans)가 포함된 FileShareFolder 폴더를 등록하는 방법의 예시가 나와 있습니다. 상위 폴더를 등록하면 지정한 폴더 아래의 모든 하위 디렉터리도 GeoAnalytics Server에 등록됩니다. 항상 개별 데이터셋 폴더가 하나 이상 포함된 상위 폴더(예시: \\machinename\FileShareFolder)를 등록하세요.

다음 데이터셋 3개가 포함된 빅데이터 파일 공유의 예시는 다음과 같습니다: Earthquakes, Hurricanes, GlobalOceans


|---FileShareFolder                 < -- The top-level folder is what is registered as a big data file share
   |---Earthquakes                  < -- A dataset "Earthquakes", composed of 4 csvs with the same schema
      |---1960
         |---01_1960.csv
         |---02_1960.csv
      |---1961
         |---01_1961.csv
         |---02_1961.csv
   |---Hurricanes                   < -- The dataset "Hurricanes", composed of 3 shapefiles with the same schema
      |---atlantic_hur.shp
      |---pacific_hur.shp
      |---otherhurricanes.shp
   |---GlobalOceans                 < -- The dataset "GlobalOceans", composed of a single shapefile
      |---oceans.shp

이와 같은 구조가 파일 공유와 HDFS에 모두 적용되지만 관련 용어는 서로 다릅니다. 파일 공유에는 최상위 폴더(디렉터리)가 있으며 데이터셋은 하위 디렉터리로 나타납니다. HDFS에는 파일 공유 위치가 등록되어 있고 데이터셋을 포함합니다. 다음 표에 차이점이 요약되어 있습니다.

파일 공유HDFS

빅데이터 파일 공유 위치

폴더/디렉터리

HDFS 경로

데이터셋

최상위 하위 폴더

HDFS 경로 내의 데이터셋

데이터를 데이터셋 하위 폴더가 포함된 폴더로 구성한 후에는 GeoAnalytics Server에서 접근할 수 있도록 ArcGIS Server에서 데이터에 접근 단계를 수행하여 포털을 통해 데이터셋 폴더 또는 HDFS 경로를 등록합니다.

Hive

Hive에서 데이터베이스에 있는 모든 테이블이 빅데이터 파일 공유의 데이터셋으로 인식됩니다. 다음 예시에는 데이터베이스 두 개(default, CityData)가 포함된 메타스토어가 나와 있습니다. Hive 빅데이터 파일 공유를 등록할 때는 데이터베이스를 하나만 선택할 수 있습니다. 이 예시에서 CityData 데이터베이스를 선택하면 빅데이터 파일 공유에는 데이터셋 두 개(FireData, LandParcels)가 포함됩니다.


|---HiveMetastore                 < -- The top-level folder is what is registered as a big data file share
   |---default                    < -- A database
      |---Earthquakes
      |---Hurricanes
      |---GlobalOceans
   |---CityData				            < -- A database that is registered (specified in Server Manager)
      |---FireData
      |---LandParcels

클라우드 스토리지 데이터 스토어

클라우드 스토리지 위치에서 빅데이터 파일 공유를 위한 데이터를 준비하려면 단일 상위 폴더 아래의 하위 폴더로 데이터셋의 서식을 지정해야 합니다.

다음은 데이터 구조화 방법의 예시입니다. 이 예시에서는 세 개의 데이터셋(Earthquakes, Hurricanes, GlobalOceans)이 포함된 상위 폴더인 FileShareFolder를 등록합니다. 상위 폴더를 등록하면 지정한 폴더 아래의 모든 하위 디렉터리도 GeoAnalytics Server에 등록됩니다.

클라우드 스토리지 위치에서 빅데이터 파일 공유로 사용할 데이터를 구조화하는 방법에 대한 예시 이 빅데이터 파일에는 세 개의 데이터셋(Earthquakes, Hurricanes 및 GlobalOceans)이 포함되어 있습니다.


|---Cloud Store                          < -- The cloud storage location being registered
   |---Container or S3 Bucket Name       < -- The container (Azure) or bucket (Amazon) being registered as part of the cloud storage data store
      |---FileShareFolder                < -- The parent folder that is registered as the 'folder' during cloud storage registration
         |---Earthquakes                 < -- The dataset "Earthquakes", composed of 4 csvs with the same schema
            |---1960
               |---01_1960.csv
               |---02_1960.csv
            |---1961
               |---01_1961.csv
               |---02_1961.csv
         |---Hurricanes                  < -- The dataset "Hurricanes", composed of 3 shapefiles with the same schema
            |---atlantic_hur.shp
            |---pacific_hur.shp
            |---otherhurricanes.shp
         |---GlobalOceans                < -- The dataset "GlobalOceans", composed of 1 shapefile
            |---oceans.shp

포털에서 빅데이터 파일 공유 관리

빅데이터 파일 공유를 생성하고 나면 빅데이터 파일 공유에 저장된 결과를 작성하는 방법이 간략하게 설명된 템플릿과 파일 공유 항목 내부의 데이터셋을 검토할 수 있습니다.

빅데이터 파일 공유 수정

빅데이터 파일 공유 항목이 생성되면 입력 데이터의 매니페스트가 자동으로 생성되어 업로드됩니다. 하지만 매니페스트 생성 프로세스에서 지오메트리와 시간을 나타내는 필드를 항상 정확하게 예측하는 것은 아니므로 편집 사항을 적용해야 할 수 있습니다. 데이터셋 표시 방법 및 매니페스트를 편집하려면 빅데이터 파일 공유 편집의 단계를 수행합니다. 빅데이터 파일 공유 매니페스트에 대한 자세한 내용은 ArcGIS Server 도움말의 빅데이터 파일 공유 매니페스트를 참고하세요.

ArcGIS Server에서 Manager를 사용하여 빅데이터 파일 공유를 생성한 경우 Server Manager에서 빅데이터 파일 공유 매니페스트 편집의 단계를 수행합니다.

빅데이터 파일 공유의 결과 템플릿 수정

결과 위치로 빅데이터 파일 공유를 사용하도록 선택한 경우 결과 템플릿이 자동으로 생성됩니다. 이러한 템플릿은 파일 형식 및 등록될 시간과 지오메트리 등 결과 분석 결과의 형식 지정을 설명합니다. 지오메트리 또는 시간 형식 지정을 수정하거나 템플릿을 추가, 삭제하려는 경우 템플릿을 수정할 수 있습니다. 결과 템플릿을 편집하려면 결과 템플릿 생성, 편집, 확인의 단계를 수행합니다. 결과 템플릿에 대한 자세한 내용은 빅데이터 파일 공유의 결과 템플릿을 참고하세요.

ArcGIS Server에서 Manager를 사용하여 빅데이터 파일 공유를 생성한 경우 Server Manager에서 빅데이터 파일 공유 매니페스트 편집의 단계를 수행합니다.

Server Manager에서 생성한 빅데이터 파일 공유를 포털로 마이그레이션

포털을 사용하여 생성한 빅데이터 파일 공유는 Server Manager로 생성한 빅데이터 파일 공유보다 장점이 많습니다. 예를 들면 다음과 같습니다.

  • UX가 개선되어 데이터셋을 더 쉽게 편집할 수 있습니다.
  • 빅데이터 파일 공유 등록 환경이 더 단순합니다.
  • 항목이 포털 자격 증명을 사용하여 저장 및 공유됩니다.

Server Manager에서 생성한 빅데이터 파일 공유에 대해 데이터 스토어 항목을 생성하는 것을 권장합니다. 경우에 따라 이는 필수적입니다. 다음과 같은 경우 빅데이터 파일 공유를 계속 사용하려면 포털에서 데이터 스토어 항목이 되도록 해당 공유를 마이그레이션해야 합니다.

  • Microsoft Azure Data Lake Storage Gen1 클라우드 스토리지 데이터 스토어를 기반으로 한 빅데이터 파일 공유

Server Manager에서 생성한 빅데이터 파일 공유를 포털 데이터 스토어 항목으로 마이그레이션하려면 다음을 준비해야 합니다.

  • 구성한 빅데이터 파일 공유의 자격 증명 및 파일 위치
  • 해당하는 경우, 구성한 클라우드 스토리지 데이터 스토어의 자격 증명 및 파일 위치
자격 증명을 알고 있다면 다음 단계를 완료합니다.

  1. GeoAnalytics Server 사이트에서 Server Manager에 로그인합니다.
  2. 사이트 > 데이터 스토어로 이동합니다. 마이그레이션할 빅데이터 파일 공유의 편집 버튼을 클릭합니다.
  3. 고급 > 매니페스트로 이동합니다. 다운로드 버튼을 클릭하여 매니페스트를 저장합니다.
  4. 힌트가 있는 경우 힌트에 대해서도 동일한 단계를 완료합니다. 힌트다운로드를 클릭하여 힌트 파일을 저장합니다. .dat에서 .txt.txt로 파일 확장자의 이름을 변경합니다.
  5. 고급결과 템플릿 섹션에 결과 템플릿이 있는 경우 텍스트를 복사하여 TXT 파일로 저장합니다.
  6. 이전에 사용한 것과 동일한 유형 및 입력 위치를 사용하여 포털 콘텐츠 페이지에 빅데이터 파일 공유를 생성합니다.

    자격 증명을 모르는 경우 관리자가 서버 관리자의 빅데이터 파일 공유 및 클라우드 스토리지 데이터 스토어 항목에서 decrypt=true 옵션을 사용하여 이를 확인할 수 있습니다.

    데이터 스토어 항목 추가의 단계를 따르고 기존 빅데이터 파일 공유와 동일한 자격 증명 및 위치를 사용합니다.

  7. 빅데이터 파일 공유 항목이 생성되면 데이터셋을 클릭하고 고급 보기 옵션을 켭니다.
  8. 매니페스트 섹션의 업로드를 클릭하여 이전에 저장해 둔 매니페스트를 업로드합니다. 이전에 저장한 매니페스트 JSON 파일로 이동하여 업로드를 클릭합니다. 변경 사항이 반영되도록 동기화 버튼을 클릭합니다.
  9. 업로드할 힌트 파일이 있는 경우 동일한 단계를 완료하고 고급 보기 > 힌트 > 업로드 옵션 아래에 힌트 파일을 업로드합니다. 변경 사항이 반영되도록 동기화 버튼을 클릭합니다.
  10. 결과 템플릿을 업로드하려면 다음 중 하나를 수행합니다.

이제 포털의 빅데이터 파일 공유 항목에 대한 빅데이터 파일 공유 및 매니페스트가 생성되었습니다. 이 빅데이터 파일 공유를 사용 및 가리키도록 워크플로를 업데이트할 수 있습니다. 예상대로 작동하는 것을 확인했다면 Server Manager의 기존 빅데이터 파일 공유를 삭제합니다.

빅데이터 파일 공유에 대한 분석 실행

GeoAnalytics Server를 지원하는 다음과 같은 클라이언트를 통해 빅데이터 파일 공유의 데이터셋에 대한 분석을 실행할 수 있습니다.

  • ArcGIS Pro
  • Map Viewer Classic
  • ArcGIS REST API
  • ArcGIS API for Python

ArcGIS Pro 또는 Map Viewer Classic를 통해 빅데이터 파일 공유에 대한 분석을 실행하려면 사용하려는 GeoAnalytics Tools를 선택합니다. 도구 입력으로는 ArcGIS Pro포털이나 Map Viewer Classic레이어 찾아보기 대화 상자에서 데이터의 위치를 찾습니다. 데이터는 직접 등록한 경우 내 콘텐츠에 있습니다. 그 외의 경우에는 그룹 또는 모든 포털을 확인하세요. 분석용으로 선택한 빅데이터 파일 공유 레이어는 맵에 나타나지 않습니다.

비고:

등록된 빅데이터 파일 공유 접근 권한이 있는 포털 계정으로 로그인해야 합니다. 검색어 bigDataFileShare*를 사용하면 포털을 검색해 접근 가능한 모든 빅데이터 파일 공유를 빠르게 찾을 수 있습니다.

ArcGIS REST API를 통해 빅데이터 파일 공유에 대한 분석을 실행하려면 빅데이터 카탈로그 서비스 URL을 입력으로 사용합니다. 포털에서 빅데이터 파일 공유를 생성한 경우 형식은 {"url":" https://webadaptorhost.domain.com/webadaptorname/rest/DataStoreCatalogs/bigDataFileShares_filesharename/"}입니다. 예를 들어 머신이 example, 도메인이 esri, 웹 어댑터가 server, 빅데이터 파일 공유가 MyData, 데이터셋이 Earthquakes이면 URL은 {"url":" https://example.esri.com/server/rest/DataStoreCatalogs/bigDataFileShares_MyData/Earthquakes_uniqueID"}입니다. Server Manager에서 빅데이터 파일 공유를 생성한 경우 형식은 {"url":"https://webadaptorhost.domain.com/webadaptorname/rest/DataStoreCatalogs/bigDataFileShares_filesharename/BigDataCatalogServer/dataset"}입니다.

REST를 통한 빅데이터 분석의 입력에 대한 자세한 내용은 ArcGIS Services REST API 문서의 피처 입력 항목을 참고하세요.

빅데이터 파일 공유에 결과 저장

데이터셋(빅데이터 파일 공유 또는 기타 입력)에 대한 분석을 실행하고 빅데이터 파일 공유에 결과를 저장할 수 있습니다. 이 작업은 다음 클라이언트를 통해 수행할 수 있습니다.

  • Map Viewer Classic
  • ArcGIS REST API
  • ArcGIS API for Python

빅데이터 파일 공유에 결과를 작성하면 방금 저장한 데이터셋이 포함되도록 입력 매니페스트가 업데이트됩니다. 이제 빅데이터 파일 공유에 작성한 결과를 다른 도구 실행을 위한 입력으로 사용할 수 있습니다. 빅데이터 파일 공유에 결과를 저장하는 경우 해당 항목을 시각화할 수 없습니다.