데이터셋 설명(Describe Dataset)—Portal for ArcGIS

데이터셋 설명 도구는 빅데이터의 개요를 제공합니다. 기본 설정에 따라 이 도구는 필드 값의 요약과 입력 레이어의 지오메트리 및 시간 설정에 대한 개요가 포함된 테이블 레이어를 출력합니다. 필요에 따라 이 도구는 입력 피처의 샘플을 나타내는 피처 레이어, 또는 입력 피처의 범위를 나타내는 단일 폴리곤 피처 레이어를 출력할 수 있습니다. 하나, 둘 모두 또는 출력 안 함으로 출력 여부를 선택할 수 있습니다.

워크플로 다이어그램

GeoAnalytics Tools를 사용하여 분석

GeoAnalytics Tools를 사용하는 분석은 여러 ArcGIS GeoAnalytics Server 머신 및 코어에서 분산 처리를 사용하여 실행됩니다. ArcGIS Enterprise의 GeoAnalytics Tools 및 표준 피처 분석 도구에는 다양한 매개변수와 기능이 있습니다. 이러한 차이점에 대한 자세한 내용은 피처 분석 도구의 차이점을 참고하세요.

사례

빅데이터 파일 공유로 시간과 지오메트리를 올바르게 등록했는지 확인합니다.
요약된 필드 통계로 속성 값을 이해합니다.
샘플 레이어로 빅데이터를 시각화합니다. 수많은 피처를 그리는 대신 샘플을 그립니다.
오래 걸리고 대규모로 처리되는 크기 조정 전에 데이터 샘플을 사용하여 워크플로를 실행합니다.
지리적 범위를 계산하여 데이터셋의 위치를 결정합니다.

사용 참고 사항

설명할 데이터셋 선택 옵션을 사용하여 설명할 테이블, 포인트, 라인 또는 영역 피처 레이어나 빅데이터 파일 공유 데이터셋을 찾습니다.

샘플 레이어 버튼을 클릭하고 나타나는 값 선택 도구에서 피처 개수를 지정하여 데이터의 부분집합을 출력합니다. 결과 부분집합은 항상 입력 피처와 동일한 스키마, 지오메트리, 시간 설정을 갖습니다. 부분집합을 사용하여 맵에 추가되거나 속성 테이블에서 시각화될 때 빅데이터가 나타나는 방식을 파악합니다. 또한 샘플 데이터셋에서 분석을 실행하여 전체 데이터셋에서 대규모 분석을 위한 최상의 입력을 결정할 수 있습니다.

범위 레이어를 선택하여 입력 데이터셋의 범위를 설명하는 경계 피처를 출력합니다. 결과는 항상 입력 피처의 지리적 범위를 나타내는 단일 사각형 피처로 출력됩니다. 범위 레이어를 사용하여 데이터의 위치를 파악하거나 워크플로의 다른 위치에서 입력으로 사용할 수 있습니다. 예를 들어 클립 레이어 GeoAnalytics 도구를 사용하여 피처를 클립할 영역 레이어 레이어로 사용합니다.

현재 맵 범위 사용을 선택한 경우 현재 맵 범위 내에 있는 피처만 분석됩니다. 선택하지 않으면 현재 맵 범위 외부에 있는 피처를 포함하여 입력 레이어에 있는 모든 입력 피처가 분석됩니다. 예를 들어 샘플 레이어를 출력하도록 선택하고 현재 맵 범위 사용을 선택하지 않은 경우 전체 데이터셋이 샘플 결과에 사용됩니다. 현재 맵 범위 사용이 선택된 상태에서 범위 레이어를 출력하도록 선택한 경우 결과 경계는 맵 범위를 나타냅니다.

기본 설정에 따라 도구는 각 필드에 대한 요약 통계와 입력 레이어의 속성을 설명하는 JSON을 포함한 테이블을 출력합니다. JSON 문자열에 접근하려면 콘텐츠 목록에서 요약 통계 테이블 레이어 위에 마우스를 놓을 때 표시되는 결과 표시 버튼 을 클릭합니다.

JSON 문자열에는 다음 정보가 포함되어 있습니다.

datasetName - 설명하고 있는 데이터셋 이름입니다.
datasetSource - 입력 데이터셋의 저장 위치입니다. 해당 값은 ArcGIS Data Store — Relational, ArcGIS Data Store — Spatiotemporal, Big Data File Share - <your_bdfs_name> 중 하나입니다.
recordCount - 입력 데이터셋의 총 레코드 수입니다.
geometry - 입력 레이어의 지오메트리 설정입니다.
- geometryType - 입력 피처가 나타내는 지오메트리 유형입니다. 해당 값은 Point, Line, Polygon, Table 중 하나입니다.
- sref - 입력 피처에 사용되는 공간 기준 체계입니다. 예를 들어 {"wkid": 26972}를 해당 값으로 사용할 수 있으며 여기서 26972는 공간 기준 체계 ID입니다.
- countNonEmpty - 유효한 지오메트리가 있는 피처 수입니다.
- countEmpty - 유효한 지오메트리가 없는 피처 수입니다.
- spatialExtent - 최소 및 최대 좌표 값으로 나타낸 공간 피처 범위입니다.
time - 입력 레이어의 시간 설정입니다.
- timeType - 입력 피처가 나타내는 시간 유형입니다. 해당 값은 Instant, Interval, None 중 하나입니다.
- countNonEmpty - 유효한 시간이 있는 피처 수입니다.
- countEmpty - 유효한 시간이 없는 피처 수입니다.
- temporalExtent - 최소 및 최대 시간 값으로 나타낸 시계열 피처 범위입니다.

시간 설정 및 빅데이터 파일 공유 데이터셋에 대한 자세한 정보

지오메트리 설정 및 빅데이터 파일 공유 데이터셋에 대한 자세한 정보

제한 사항

샘플 레이어는 실제로 임의의 지리적 선택을 나타내지 않으므로 데이터의 지리적 범위 또는 분포를 파악하는 데 사용해서는 안 됩니다. 예를 들어 포함할 피처 개수에 230개의 피처를 지정하면 결과에는 230개의 입력 피처가 임의의 순서 또는 위치에 포함될 수 있습니다.

데이터셋 작동 방식

계산

요약 통계는 입력 레이어의 각 필드에 대해 계산됩니다. 필드는 필드 유형에 따라 다른 통계 결과를 갖습니다. 다음의 토양 깊이 예시는 통계가 각 필드 유형에 대해 계산되는 방법에 대해 간략히 설명합니다.


숫자 통계	계산된 결과
개수	다음의 개수: `[130, 8, 250, 0, null] = 4`
합계	`130 + 8 + 250 + 0 + null = 388`
최소값	최소값: `[130, 8, 250, 0, null] = 0`
최대값	최대값: `[130, 8, 250, 0, null] = 250`
평균	`388/4 = 97`
범위	`250-0 = 250`
변수	`= 13942.66667`
표준편차	`= 118.0791`


데이터 통계	계산된 결과
개수	다음의 개수: `[1538738400000, 1507202400000, 1475666400000, 1412508000000, null] = 4`
최소값	최소값: `[1538738400000, 1507202400000, 1475666400000, 1412508000000, null] = 1412508000000`
최대값	최대값: `[1538738400000, 1507202400000, 1475666400000, 1412508000000, null] = 1538738400000`
범위	`1538738400000-1412508000000 = 126230400000`

비고:

ArcGIS Data Store에 저장된 결과는 항상 에포크 협정 세계시(UTC)에서 항상 밀리초로 저장됩니다. 예를 들어 UTC 시간 1538713350000 밀리초는 그리니치 표준시(GMT) 시간대인 2018년 10월 5일 금요일 오후 4시 22분 30초에 해당합니다.


문자열 통계	계산된 결과
개수	["high", "high", "high", "low", null] = 4
모든	= "low"

비고:

문자열 및 숫자 필드에 대한 개수 통계는 비어 있지 않은 값의 개수를 셉니다. [0, 1, 10, 5, null, 6] = 5의 개수입니다. [Primary, Primary, Secondary, null] = 3의 개수입니다.

ArcGIS API for Python 예시

데이터셋 설명 도구는 ArcGIS API for Python을 통해 제공됩니다.

이 예시에서는 빅데이터 파일 공유에서 허리케인 추적 데이터셋을 설명하고 200개의 허리케인 피처 및 범위 레이어의 부분집합을 출력합니다.


# Import the required ArcGIS API for Python modules
import arcgis
from arcgis import geoanalytics as ga
from arcgis.gis import GIS

# Connect to your ArcGIS Enterprise portal and confirm that GeoAnalytics is supported
portal = GIS("https://myportal.domain.com/portal", "gis_publisher", "my_password", verify_cert=False)
if not portal.geoanalytics.is_supported():
    print("Quitting, GeoAnalytics is not supported")
    exit(1)   

# Find the big data file share dataset you'll use for analysis
search_result = portal.content.search("", "Big Data File Share")

# Look through the search results for a big data file share with the matching name
bdfs_search = next(x for x in search_result if x.title == "bigDataFileShares_NaturalDisasters")

# Look through the big data file share for Hurricanes
hurricanes = next(x for x in bdfs_search.layers if x.properties.name == "Hurricanes")

# Run the Describe Dataset tool
result = ga.summarize_data.describe_dataset(input_layer=hurricanes, sample_size=200, 
																																												extent_output=true, output_name="Hurricanes_describe")

# Visualize the sample and extent layers if you are running Python in a Jupyter Notebook
processed_map = portal.map()
processed_map.add_layer(result)
processed_map

유사한 도구

샘플, 통계, 요약을 사용하여 데이터를 탐색하려는 경우 데이터셋 설명을 사용합니다. 서로 비슷하지만 약간 다른 문제를 해결하는 데 유용한 기타 도구를 사용할 수 있습니다.

Map Viewer 분석 도구

포인트 집계 ArcGIS GeoAnalytics Server 도구를 사용하여 데이터셋을 그룹 또는 영역으로 집계하고 요약 통계를 출력합니다.

클립 레이어 ArcGIS GeoAnalytics Server 도구를 사용하여 특정 영역 내 데이터의 부분집합을 생성합니다.

ArcGIS Desktop 분석 도구

ArcGIS Pro에서 해당 도구를 실행하려면 활성 포털이 Enterprise 10.7 이상이어야 합니다. GeoAnalytics 피처 분석을 수행할 수 있는 권한을 가진 계정을 사용하여 포털에 로그인해야 합니다.

이 항목에 대한 피드백을 제공하시겠습니까?