描述数据集工具提供大数据概述。默认情况下,该工具会输出一个表格图层,其中包含字段值摘要以及输入图层的几何和时间设置概述。此外,工具也可以输出表示输入要素样本的要素图层,或表示输入要素范围的单个面要素图层。您可以选择输出一项、两项或都不选。
工作流示意图
使用 GeoAnalytics Tools 进行的分析
通过跨多个 ArcGIS GeoAnalytics Server 计算机和核心组件的分布式处理来运行使用 GeoAnalytics Tools 进行的分析。GeoAnalytics Tools 和 ArcGIS Enterprise 中标准要素分析工具的参数和功能不同。要了解有关这些差别的详细信息,请参阅要素分析工具差别。
示例
- 验证大数据文件共享的正确注册时间和几何。
- 了解属性值和汇总字段统计数据。
- 使用样本图层可视化您的大数据。绘制样本,而不是绘制一百万个要素。
- 在针对更长时间和更大规模的处理进行调整前,使用数据样本运行工作流。
- 通过计算地理范围来确定数据集的位置。
用法说明
使用选择要描述的数据集选项浏览到您要描述的表格、点、线或区域要素图层或大数据文件共享数据集。
通过单击样本图层按钮并指定值选择器中显示的要素数,输出数据的子集。该输出子集会始终具有与输入要素相同的方案、几何和时间设置。使用子集可以了解大数据在添加到地图或在属性表中可视化时的显示方式。此外,您可以对样本数据集运行分析,以确定对整个数据集进行大数据分析的最佳输入。
通过选择范围图层,输出用于描述输入数据集范围的边界要素。该输出始终是表示输入要素地理范围的单个矩形要素。使用范围图层来了解数据的定位位置,或将其用作工作流中其他位置的输入。例如,将其用作使用裁剪图层 GeoAnalytics 工具裁剪要素所形成的区域图层。
如果选中使用当前地图范围,则仅对当前地图范围内的要素进行分析。如果未选中,则将分析输入图层中的所有输入要素,包括超出当前地图范围的要素。例如,如果您选择输出样本图层但未选中使用当前地图范围,则会将整个数据集用于样本结果。如果您选择输出范围图层且选中了使用当前地图范围,则输出边界将代表地图范围。
默认情况下,该工具将输出一个表,其中包含每个字段的摘要统计数据以及一个用于描述输入图层属性的 JSON。要访问 JSON 字符串,请单击当您将鼠标悬停在内容列表中的摘要统计数据表图层上时显示的显示结果按钮 。
JSON 字符串包含以下信息:
- datasetName - 正在描述的数据集的名称。
- datasetSource - 输入数据集的存储位置。这个值可能是 ArcGIS Data Store — Relational、ArcGIS Data Store — Spatiotemporal 或 Big Data File Share - <your_bdfs_name>。
- recordCount - 输入数据集中的记录总数。
- geometry - 输入图层的几何设置。
- geometryType - 输入要素所代表的几何类型。这个值可能是 Point、Line、Polygon 或 Table。
- sref - 输入要素使用的空间参考。例如,这个值可能是 {"wkid": 26972},其中 26972 是空间参考 ID。
- countNonEmpty - 具有有效几何的要素数。
- countEmpty - 没有有效几何的要素数。
- spatialExtent - 由最小和最大坐标值表示的要素的地理范围。
- time - 输入图层的时间设置。
- timeType - 输入要素所代表的时间类型。这个值可能是 Instant、Interval 或 None。
- countNonEmpty - 具有有效时间的要素数量。
- countEmpty - 没有有效时间的要素数量。
- temporalExtent - 由最小和最大时间值表示的要素的时态范围。
限制
样本图层并不代表真正随机的地理选择,不应用于了解数据的地理范围或分布。例如,如果您将要包含的要素数量指定为 230 个要素,则结果可以包含以任何顺序排列或位于任何位置的 230 个输入要素。
描述数据集的工作原理
计算
计算输入图层中每个字段的摘要统计数据。根据字段类型,字段将具有不同的统计数据输出。以下是土壤深度示例,该示例概述了如何计算每种字段类型的统计数据:
数值统计数据 | 计算结果 |
---|---|
计数 | 计数:
|
总和 |
|
最小值 | 最小值:
|
最大值 | 最大值:
|
平均值 |
|
范围 |
|
方差 |
|
标准差 |
|
日期统计数据 | 计算结果 |
---|---|
计数 | 计数:
|
最小值 | 最小值:
|
最大值 | 最大值:
|
范围 |
|
注:
存储在 ArcGIS Data Store 中的结果始终采用新纪元协调世界时间 (UTC) 并以毫秒为单位进行存储。例如,UTC 时间 1538713350000 毫秒,相当于 GMT 时区的 2018 年 10 月 5 日星期五下午 04:22:30。
字符串统计数据 | 计算结果 |
---|---|
计数 | ["high", "high", "high", "low", null] = 4 |
任何 | = "low" |
注:
计数统计(针对字符串和数值字段)用于计算非空值的数量。[0, 1, 10, 5, null, 6] = 5 的计数。[Primary, Primary, Secondary, null] = 3 的计数。
ArcGIS API for Python 示例
可通过 ArcGIS API for Python 获取描述数据集工具。
本示例可描述大数据文件共享中的飓风跟踪数据集,并输出包含 200 个飓风要素的子集和范围图层。
# Import the required ArcGIS API for Python modules
import arcgis
from arcgis import geoanalytics as ga
from arcgis.gis import GIS
# Connect to your ArcGIS Enterprise portal and confirm that GeoAnalytics is supported
portal = GIS("https://myportal.domain.com/portal", "gis_publisher", "my_password", verify_cert=False)
if not portal.geoanalytics.is_supported():
print("Quitting, GeoAnalytics is not supported")
exit(1)
# Find the big data file share dataset you'll use for analysis
search_result = portal.content.search("", "Big Data File Share")
# Look through the search results for a big data file share with the matching name
bdfs_search = next(x for x in search_result if x.title == "bigDataFileShares_NaturalDisasters")
# Look through the big data file share for Hurricanes
hurricanes = next(x for x in bdfs_search.layers if x.properties.name == "Hurricanes")
# Run the Describe Dataset tool
result = ga.summarize_data.describe_dataset(input_layer=hurricanes, sample_size=200,
extent_output=true, output_name="Hurricanes_describe")
# Visualize the sample and extent layers if you are running Python in a Jupyter Notebook
processed_map = portal.map()
processed_map.add_layer(result)
processed_map
类似工具
当您想要使用样本、统计数据和摘要来浏览数据时,请使用描述数据集。其他工具或许在解决略有差异的类似问题时十分有用。
Map Viewer 分析工具
使用聚合点 ArcGIS GeoAnalytics Server 工具,将数据集聚合成条柱或区域并输出汇总统计数据。
使用裁剪图层 ArcGIS GeoAnalytics Server 工具,在特定区域内创建您的数据子集。
ArcGIS Desktop 分析工具
要从 ArcGIS Pro 运行此工具,您的活动门户必须为 Enterprise 10.7 或更高版本。您必须使用具有执行 GeoAnalytics 要素分析权限的帐户登录。