大数据文件共享在 ArcGIS GeoAnalytics Server 上通过 ArcGIS Server Manager 注册为数据存储。大数据文件共享需要一个清单来概述数据的模式,以及概述表示数据集中的几何和时间的字段和格式。注册大数据文件共享时,会自动生成该清单。如果数据发生任何更改或如果清单生成无法确定所需的所有信息(例如,如果自动生成的清单没有为几何或时间选择正确的字段),则可能需要进行修改。
可通过 ArcGIS GeoAnalytics Server 上的 ArcGIS Server Manager 查看和编辑数据集与清单信息。
编辑大数据文件共享
注册大数据文件共享之后,您可以通过打开大数据文件共享清单编辑器来查看并编辑该项目的已注册数据集的属性和设置。
例如,您可能想要验证已注册文件共享中数据集的数量。在此过程中,如果您没有在已注册文件共享中看到预期数量的数据集,则应检查注册的位置是否包含有效数据集。
您可能还想查看已注册大数据共享文件的数据集方案。您可以通过更新相关清单资源中的几何、时间定义和字段名称来修改选定的数据集方案。
在大数据文件共享清单编辑器的高级选项卡上,您可以上传提示文件以提供有关数据集的信息,例如是否存在标题行、编码、字段分隔符或记录终止符。上传提示文件后重新生成清单时,将使用所提供的信息来生成该清单。
此外,您还可以下载该清单、进行编辑,然后上传编辑后的清单文件。
编辑大数据文件共享数据集
在大数据文件共享清单编辑器中,您可以查看所选的大数据文件共享以及成功注册到其中的数据集。从编辑器下拉菜单中选择数据集时,还会填充相应参数。有关该对话框中每个选项的详细信息,请参阅在大数据文件共享中编辑参数。要编辑数据集参数,请执行以下操作:
- 在已注册的数据存储对话框上,找到您想要编辑的大数据文件共享。
- 单击编辑铅笔以查看相应数据集的详细信息和选项。
- 单击数据集选项卡来显示已注册的数据集及其相应的参数。
- 从下拉菜单中选择数据集以查看其清单中显示的信息。可根据需要对数据集属性进行更新。
- 编辑完数据集属性后,单击保存。
编辑大数据文件共享清单或提示文件
在大数据文件共享编辑器的高级选项卡上,您可以通过选择相应的选项卡来编辑相关清单或提示文件。如果您上传文件清单,它将会覆盖您在编辑器中对大数据文件共享清单所做的任何更改并替换当前清单。有关大数据文件共享清单的详细信息,请参阅了解大数据文件共享清单。有关使用提示文件的详细信息,请参阅了解提示文件。要编辑大数据文件共享清单或提示文件,请执行以下操作:
- 在已注册的数据存储对话框上,找到您想要修改的大数据文件共享。
- 单击编辑铅笔以查看用于修改清单资源的选项。
- 单击高级选项卡。
- 根据您所要进行的修改,从高级选项卡上,选择清单或提示选项卡。
- 要下载清单文件,请单击清单 > 下载。
- 要下载提示文件,请单击提示 > 下载。
- 使用文件编辑器可本地修改下载的 .json 清单文件或 .dat 提示文件并保存对它们进行的更改。
提示:
提示文件的默认文件格式为 .dat。下载文件后,您可以将其扩展名改为 .txt 并编辑该文件。 - 要上传编辑后的文件,请单击您要修改的大数据文件共享的编辑铅笔。
- 要编辑清单,请单击高级 > 清单 > 上传并浏览至更新的 .json 文件。
- 要编辑提示文件,请单击高级 > 提示 > 上传并浏览至更新的 .txt 文件。
- 单击上传。
如果您上传例如提示文件,请确保重新生成清单。当重新生成清单时,只有带有提示的数据集或新数据集将会被更新,并且对未包含在提示文件中的任何其他数据集进行的更改将保持不变。
重新生成大数据文件共享的清单
创建大数据文件共享并生成清单之后,将在已注册数据存储对话框上针对每个条目显示重新生成清单按钮。
如果您添加了新数据或使用编辑资源上传了提示文件,您可以重新生成清单。提示文件提供有重新生成清单所用的规范。
注:
重新生成清单时,将更新具有提示文件的现有数据集或新数据集的清单。您对清单所做的任何编辑都将被提示文件中所定义的规则覆盖。大数据文件共享编辑参数
大数据文件共享编辑器包括以下五个部分:
- 数据集选择器
- 字段
- 几何
- 时间
- 数据集格式
如果清单生成未正确确定字段名、编码、字段分隔符或引号字符,则建议在编辑数据前使用提示文件。
数据集选择器
清单由一个或多个数据集组成。数据集数量取决于大数据文件共享位置中的文件夹数量。打开清单管理器后,可以看到已成功注册到大数据文件共享中的数据集。从下拉菜单中选择数据集后,数据集参数将使用数据集信息进行填充。
如果您希望在清单中找到更多数据集或者丢失任何数据集,请执行以下操作:
- 确认是否正确注册顶级文件夹。有关详细信息,请参阅通过 ArcGIS Server Manager 注册数据存储。
- 检查输入数据是否采用允许的格式,例如分隔文件、shapefile、parquet、或 ORC 集合。
- 对于文件集合,确保感兴趣的输入数据集的方案一致(单个数据集中的所有文件必须具有相同的字段)。
字段
字段部分列出了数据集中的所有字段。选择数据集后,将能够看见每个字段的以下内容:
- 字段的名称。
- 字段类型。
可以修改分隔文件的字段名称和类型。如果修改多个字段名称,建议使用提示文件。
如果输入数据集为分隔文件,则可在 Manager 中修改清单中的多个参数。
几何
几何部分列出了几何类型及其表示方式。下表概述了根据输入数据集类型的可用选项和可进行更改的注释:
几何参数
参数 | 说明 | 分割文件 | Shapefiles | ORC 文件 | Parquet 文件 |
---|---|---|---|---|---|
几何 | 几何类型。选项包括“点”、“折线”、“面”或“无”。如果没有几何,输入是一个表格。 | 可编辑 | 无法修改 | 可编辑 | 可编辑 |
空间参考 (WKID/WKT) | 数据集的空间参考。仅当数据集不是表时,才会显示此选项。 | 可修改。默认情况下,会将其设置为 4326,WGS 1984。 | 无法修改 | 可编辑 | 可编辑 |
几何格式类型 | 每个要素的几何格式的设置方式。选项是 XYZ(表示 X、Y 和可选 Z 值的字段 - XYZ 仅适用于点),WKT(众所周知的文本),GeoJson,EsriJson 和 shape。仅当数据集不是表也不是 shapefile 时,此选项才可用。 | 可编辑 | 不可用 | 可编辑 | 可编辑 |
时间
时间部分将概述如何表示时间。下表概述了根据输入数据集类型的可用选项和可进行更改的注释。时间选项对于所有数据类型都是一样的,除非另有注释。
时间参数
参数 | 说明 | 示例 |
---|---|---|
时间类型 | 输入时间的类型。选项为时刻(单个时间点)、间隔(具有开始和结束时间的时间跨度)以及无。 | 时刻 |
时区 | 输入时间的时区。只有在时间类型不是无的情况下,此选项才可用。 | UTC |
时间的名称和格式表 | 该表将选择一个或多个时间字段,然后概述时间的定义方式。时间可以使用一个或多个字段来定义时间,并且可以针对单个字段使用一种或多种格式。默认情况下,名称为“时间”的第一个字段将用作时间字段,使用评估的时间格式。如果存在 shapefile,则将使用类型“日期”的第一个字段。如果时间类型为间隔,则必须指定开始和结束时间。只有在时间类型不是无的情况下,时间格式表才可用。 | 以下示例为通过两种不同格式表示时间的单个字段:
以下示例为用于表示时间的两个字段:
|
时间格式
下表概述了通过 ArcGIS Server Manager 或直接在清单中编辑大数据文件共享时如何表示时间。这些示例显示如何表示时间 2016 年 1 月 2 日下午 9:45:02.05。
大数据文件共享中的时间格式
符号 | 含义 | 示例 |
---|---|---|
yy | 年,以两位数表示。 | 16 |
yyyy | 年,以四位数表示。 | 2016 |
MM | 月,以数字表示。 | 01 或 1 |
MMM | 月,使用三个字母表示。 | Jan |
MMMM | 月,使用完整的拼写表示。 | January |
dd | 天。 | 02 或 2 |
HH | 小时,采用 24 - 小时制;值介于 0 - 23 之间。 | 21 |
hh | 小时,采用 12 - 小时制;值介于 1 - 12 之间。 | 9 |
mm | 分钟;值介于 0 - 59 之间。 | 45 |
ss | 秒钟;值介于 0 - 59 之间。 | 02 |
SSS | 毫秒;值介于 0 - 999 之间。 | 50 |
a | AM/PM 标记。 | PM |
epoch_millis | 时间以从新纪元开始的微秒为单位。 | 1509581781000 |
epoch_seconds | 时间以从新纪元开始的秒为单位。 | 1509747601 |
Z | 以小时表示的时区偏差。 | -0100 或 -01:00 |
ZZZ | 以 ID 表示的时区偏差。 | America/Los_Angeles |
下表显示了同一日期的不同格式示例,2016 年 1 月 2 日下午 9:45:02.05:
时间格式示例
输入日期 | 日期格式 |
---|---|
01/02/2016 9:45:02PM | MM/dd/yyyy hh:mm:ssa |
Jan02-16 21:45:02 | MMMdd-yy HH:mm:ss |
January 02 2016 9:45:02.050PM | MMMM dd yyyy hh:mm:ss.SSSa |
01/02/2017T9:45:14:05-0000 | MM/dd/yyyy'T'HH:mm:ssZ |
数据集格式
数据集格式部分概述了数据采用的格式。数据可能采用以下任一格式:
- Shapefile (.shp)
- 分割文件(例如 .csv)
- Parquet 文件
- ORC 文件
可用参数可能因为数据集的不同而有所差异。对于 shapefiles,ORC 和 parquet 文件 ,唯一参数为文件类型,不能进行修改。如果输入数据集为分隔文件,则可在 Manager 中修改清单中的多个参数。下表概述了这些参数:
数据集格式
参数 | 说明 |
---|---|
文件扩展名 | 列出输入数据集上的文件类型扩展名。常用格式为 .csv 和 .txt。此信息可以包含在提示文件中。 |
字段分隔符 | 确定每个字段的分隔符。常用格式为 , 和 ;。此信息可以包含在提示文件中。 |
记录结束符 | 确定每行数据的结束符。常用格式为 \n 和 \t。此信息可以包含在提示文件中。 |
引号字符 | 决定用于引号的字符。此信息可以包含在提示文件中。 |
具有标题行 | 确定输入表是否包含标题行的布尔值。如果包含标题行,则标题将用于字段名。字段名信息用于预测几何和时间字段。可使用提示文件设置标题。 |
编码 | 用于文件的编码类型。默认情况下,其为 UTF - 8。可以在提示文件中设置。 |