大数据文件共享在 ArcGIS GeoAnalytics Server 上通过 ArcGIS Server Manager 注册为数据存储。大数据文件共享需要一个清单来概述输入数据的模式,以及表示数据集中几何和时间的字段和格式。注册大数据文件共享时,会自动生成该清单。如果数据发生任何更改或如果清单生成无法确定所需的所有信息(例如,如果自动生成的清单没有为几何或时间选择正确的字段),则可能需要进行修改。大数据文件共享可以选择使用输出模板,用于概述写入大数据文件共享的结果格式。注册大数据文件共享并选择使用大数据文件共享作为输出位置时,会生成输出模板。您可能需要修改一个或多个模板,例如时间格式和几何字段,或者您可能想添加或删除模板。
您可以通过 ArcGIS GeoAnalytics Server 上的 ArcGIS Server Manager 来查看和编辑数据集和清单信息,以及输出模板。
编辑大数据文件共享
注册大数据文件共享之后,您可以通过打开大数据文件共享清单编辑器来查看并编辑该项目的已注册数据集的属性和设置。您还可以编辑可选输出模板的属性和设置,其中概述了输出结果写入大数据文件共享的方式。
例如,对于输入数据,您可能想要验证已注册文件共享中数据集的数量。在此过程中,如果您没有在已注册文件共享中看到预期数量的数据集,则应检查注册的位置是否包含有效数据集。
对于输出模板,您可能想要格式化分割文件输出以编写制表符分隔文件并使用 WKT 存储几何。
您可能还想查看已注册大数据共享文件的数据集方案。您可以通过更新相关清单资源中的几何、时间定义和字段名称来修改选定的数据集方案。
在大数据文件共享清单编辑器的高级选项卡上,您可以上传提示文件以提供有关数据集的信息,例如是否存在标题行、编码、字段分隔符或记录终止符。上传提示文件后重新生成清单时,将使用所提供的信息来生成该清单。
此外,您还可以下载该清单、进行编辑,然后上传编辑后的文件。
编辑大数据文件共享输入数据集
在大数据文件共享清单编辑器中,您可以查看所选的大数据文件共享以及成功注册到其中的数据集。从编辑器下拉菜单中选择数据集时,还会填充相应参数。有关该对话框中每个选项的详细信息,请参阅在大数据文件共享中编辑参数。要编辑数据集参数,请执行以下操作:
- 在已注册的数据存储对话框上,找到您想要编辑的大数据文件共享。
- 单击编辑铅笔以查看对应数据集的详细信息和选项。
- 单击数据集选项卡来显示已注册的数据集及其相应的参数。
- 从下拉菜单中选择数据集以查看其清单中显示的信息。可根据需要对数据集属性进行更新。
- 编辑完数据集属性后,单击保存。
编辑大数据文件共享清单或提示文件
在大数据文件共享编辑器的高级选项卡上,您可以通过选择相应的选项卡来编辑相关清单或提示文件。如果您上传文件清单,它将会覆盖您在编辑器中对大数据文件共享清单所做的任何更改并替换当前清单。有关大数据文件共享清单的详细信息,请参阅了解大数据文件共享清单。有关使用提示文件的详细信息,请参阅了解提示文件。要编辑大数据文件共享清单或提示文件,请执行以下操作:
- 在已注册的数据存储对话框上,找到您想要修改的大数据文件共享。
- 单击编辑铅笔以查看用于修改清单资源的选项。
- 单击高级选项卡。
- 根据您所要进行的修改,从高级选项卡上,选择清单或提示选项卡。
- 要下载清单文件,请单击清单 > 下载。
- 要下载提示文件,请单击提示 > 下载。
- 使用文件编辑器可本地修改下载的 .json 清单文件或 .dat 提示文件并保存对它们进行的更改。
提示:
提示文件的默认文件格式为 .dat。下载文件后,您可以将其扩展名改为 .txt 并编辑该文件。 - 要上传编辑后的文件,请单击您要修改的大数据文件共享的编辑铅笔。
- 要编辑清单,请单击高级 > 清单 > 上传并浏览至更新的 .json 文件。
- 要编辑提示文件,请单击高级 > 提示 > 上传并浏览至更新的 .txt 文件。
- 单击上传。
如果您上传例如提示文件,请确保重新生成清单。当重新生成清单时,只有带有提示的数据集或新数据集将会被更新,并且对未包含在提示文件中的任何其他数据集进行的更改将保持不变。
重新生成大数据文件共享的清单
创建大数据文件共享并生成清单之后,将在已注册数据存储对话框上针对每个条目显示重新生成清单按钮。
如果您添加了新数据或使用编辑资源上传了提示文件,您可以重新生成清单。提示文件提供有重新生成清单所用的规范。
注:
重新生成清单时,将更新具有提示文件的现有数据集或新数据集的清单。您对清单所做的任何编辑都将被提示文件中所定义的规则覆盖。大数据文件共享编辑参数
大数据文件共享编辑器包括以下五个部分:
- 数据集选择器
- 字段
- 几何
- 时间
- 数据集格式
如果清单生成未正确确定字段名、编码、字段分隔符或引号字符,则建议在编辑数据前使用提示文件。
数据集选择器
清单由一个或多个数据集组成。数据集数量取决于大数据文件共享位置中的文件夹数量。打开清单管理器后,可以看到已成功注册到大数据文件共享中的数据集。从下拉菜单中选择数据集后,数据集参数将使用数据集信息进行填充。
如果您希望在清单中找到更多数据集或者丢失任何数据集,请执行以下操作:
- 确认是否正确注册顶级文件夹。有关详细信息,请参阅将数据注册到 ArcGIS Server Manager。
- 检查输入数据是否采用允许的格式,例如分隔文件、shapefile、parquet、或 ORC 集合。
- 对于文件集合,确保感兴趣的输入数据集的方案一致(单个数据集中的所有文件必须具有相同的字段)。
字段
字段部分列出了数据集中的所有字段。选择数据集后,将能够看见每个字段的以下内容:
- 字段的名称
- 字段类型
可以修改分隔文件的字段名称和类型。如果修改多个字段名称,建议使用提示文件。
如果输入数据集为分隔文件,则可在 ArcGIS Server Manager 中修改清单中的多个参数。
几何
几何部分列出了几何类型及其表示方式。下表概述了根据输入数据集类型的可用选项和可进行更改的注释:
几何参数
参数 | 描述 | 分割文件 | Shapefiles | ORC 文件 | Parquet 文件 |
---|---|---|---|---|---|
几何 | 几何类型。选项包括“点”、“折线”、“面”或“无”。如果没有几何,输入是一个表格。 | 可编辑 | 无法修改 | 可编辑 | 可编辑 |
空间参考 (WKID/WKT) | 数据集的空间参考。仅当数据集不是表时,才会显示此选项。 | 可修改。默认情况下,会将其设置为 4326,WGS 1984。 | 无法修改 | 可编辑 | 可编辑 |
几何格式类型 | 每个要素的几何格式的设置方式。选项是 XYZ(表示 X、Y 和可选 Z 值的字段 - XYZ 仅适用于点),WKT(众所周知的文本),GeoJson,EsriJson 和 shape。仅当数据集不是表也不是 shapefile 时,此选项才可用。 | 可编辑 | 不可用 | 可编辑 | 可编辑 |
时间
时间部分将概述如何表示时间。下表概述了根据输入数据集类型的可用选项和可进行更改的注释。时间选项对于所有数据类型都是一样的,除非另有注释。
时间参数
参数 | 描述 | 示例 |
---|---|---|
时间类型 | 输入时间的类型。选项为时刻(单个时间点)、间隔(具有开始和结束时间的时间跨度)以及无。 | 时刻 |
时区 | 输入时间的时区。只有在时间类型不是无的情况下,此选项才可用。 | UTC |
时间的名称和格式表 | 该表将选择一个或多个时间字段,然后概述时间的定义方式。时间可以使用一个或多个字段来定义时间,并且可以针对单个字段使用一种或多种格式。默认情况下,名称为“时间”的第一个字段将用作时间字段,使用评估的时间格式。如果存在 shapefile,则将使用类型“日期”的第一个字段。如果时间类型为间隔,则必须指定开始和结束时间。只有在时间类型不是无的情况下,时间格式表才可用。 | 以下示例为通过两种不同格式表示时间的单个字段:
以下示例为用于表示时间的两个字段:
|
时间格式
下表概述了通过 ArcGIS Server Manager 或直接在清单中编辑大数据文件共享时如何表示时间。这些示例显示如何表示时间 2016 年 1 月 2 日下午 9:45:02.05。
大数据文件共享中的时间格式
符号 | 含义 | 示例 |
---|---|---|
yy | 年,以两位数表示。 | 16 |
yyyy | 年,以四位数表示。 | 2016 |
MM | 月,以数字表示。 | 01 或 1 |
MMM | 月,使用三个字母表示。 | Jan |
MMMM | 月,使用完整的拼写表示。 | January |
dd | 天。 | 02 或 2 |
HH | 小时,采用 24 小时制;值介于 0 - 23 之间。 | 21 |
hh | 小时,采用 12 小时制;值介于 1 - 12 之间。 | 9 |
毫米 | 分钟;值介于 0 - 59 之间。 | 45 |
ss | 秒钟;值介于 0 - 59 之间。 | 02 |
SSS | 毫秒;值介于 0 - 999 之间。 | 50 |
a | AM/PM 标记。 | PM |
epoch_millis | 时间以从新纪元开始的微秒为单位。 | 1509581781000 |
epoch_seconds | 时间以从新纪元开始的秒为单位。 | 1509747601 |
Z | 以小时表示的时区偏差。 | -0100 或 -01:00 |
ZZZ | 以 ID 表示的时区偏差。 | America/Los_Angeles |
'' | 使用单引号添加不表示此表中列出的值的文本。 | 'T' |
下表显示了同一日期的不同格式示例,2016 年 1 月 2 日下午 9:45:02.05:
时间格式示例
输入日期 | 日期格式 |
---|---|
01/02/2016 9:45:02PM | MM/dd/yyyy hh:mm:ssa |
Jan02-16 21:45:02 | MMMdd-yy HH:mm:ss |
January 02 2016 9:45:02.050PM | MMMM dd yyyy hh:mm:ss.SSSa |
01/02/2017T9:45:14:05-0000 | MM/dd/yyyy'T'HH:mm:ssZ |
数据集格式
数据集格式部分概述了数据采用的格式。数据可能采用以下任一格式:
- Shapefile (.shp)
- 分割文件(例如 .csv)
- Parquet 文件
- ORC 文件
可用参数可能因为数据集的不同而有所差异。对于 shapefiles,ORC 和 parquet 文件 ,唯一参数为文件类型,不能进行修改。如果输入数据集为分隔文件,则可修改多个参数。要修改分隔文件的值,请使用提示文件并重新生成清单。下表概述了这些参数:
数据集格式
参数 | 描述 |
---|---|
文件扩展名 | 列出输入数据集上的文件类型扩展名。常用格式为 .csv 和 .txt。使用提示文件修改分隔文件的此项信息。 |
字段分隔符 | 确定每个字段的分隔符。常用格式为 , 和 ;。使用提示文件修改分隔文件的此项信息。 |
记录终止符 | 确定每行数据的结束符。常用格式为 \n 和 \t。使用提示文件修改分隔文件的此项信息。 |
引号字符 | 决定用于引号的字符。使用提示文件修改分隔文件的此项信息。 |
具有标题行 | 确定输入表是否包含标题行的布尔值。如果包含标题行,则标题将用于字段名。字段名信息用于预测几何和时间字段。使用提示文件设置标题行。 |
编码 | 用于文件的编码类型。默认情况下,其为 UTF - 8。可使用提示文件对其进行设置。 |
大数据文件共享输出模板编辑参数
大数据文件共享输出模板编辑器包括以下四个部分:
- 输出模板选择器
- 几何格式
- 时间格式
- 数据集格式
数据集选择器
大数据文件共享可以由一个或多个模板组成。模板的数量由您想写入结果的不同格式所决定。打开输出模板管理器后,可以看到已成功注册到大数据文件共享中的模板。从下拉菜单中选择模板后,模板参数将使用输出格式信息进行填充。如果要添加新模板,请选择添加模板选项,然后选择新模板的类型和名称。如果要删除模板,请从模板选择器中选择模板,然后选择删除模板。您可以选择现有模板,根据需要修改以下任何部分来对模板进行修改。
注:
输入大数据文件共享具有字段部分。输出模板没有字段部分,因为结果字段由 GeoAnalytics 工具 创建的结果决定。ORC 仅支持包含基本拉丁字母和数字字符的字段名称。字段名称中的所有其他字符均将替换为下划线。
几何
几何部分列出了您为每个几何类型(点、线、面)选择的输出几何的格式化方式。确定输出几何分为两个部分:
- 空间参考 - 您可以将其留空,该部分默认使用工具结果。可以提供 WKID 或 WKT 字符串,所有结果都将投影到该空间参考。此值将共享到所有输出几何。
- 几何格式类型和字段。下面将对此进行更详细的描述。
输出几何格式
几何类型 | 输出字段 | 分割文件 | Shapefiles | ORC 文件 | Parquet 文件 |
---|---|---|---|---|---|
XYZ - 包括 X、Y 和可选的 Z 字段。此选项仅可用于点要素。 | 默认情况下,将创建名为 X、Y 和 Z 的三个新字段。您可以选择更改这些字段的名称。 | ||||
WKT | 默认情况下,将创建一个名为 Geometry 的新字段。您可以选择更改输出字段名称。 | ||||
GeoJSON | 默认情况下,将创建一个名为 Geometry 的新字段。您可以选择更改输出字段名称。 | ||||
EsriJSON | 默认情况下,将创建一个名为 Geometry 的新字段。您可以选择更改输出字段名称。 | ||||
SHP | 默认情况下,将创建一个名为 Geometry 的新字段。您可以选择更改输出字段名称。 | ||||
WKB | 默认情况下,将创建一个名为 Geometry 的新字段。您可以选择更改输出字段名称。 | ||||
形状缓冲 | 默认情况下,将创建一个名为 Geometry 的新字段。您可以选择更改输出字段名称。 |
时间
时间部分将概述如何表示输出时间。格式化时间需要以下信息:
- 时刻和间隔的格式。
- 时间要写入的字段名称。
- 时间的写入格式(字符串或日期)。请注意,分隔文件只能使用字符串进行格式化。
- 对于间隔,还需要指明表示开始和结束时间字段。
时间格式与输入大数据文件相同。请参阅大数据文件共享中的时间格式。
数据集格式
数据集格式部分概述了数据将写入的输出格式。数据可能采用以下任一格式:
- Shapefile (.shp)
- 分割文件(例如 .csv)
- Parquet 文件
- ORC 文件
可用参数可能因为数据集的不同而有所差异。对于 shapefile、ORC 和 parquet 文件,唯一参数为文件类型,不能进行修改。如果输入数据集为分隔文件,则可在 ArcGIS Server Manager 中修改清单中的多个参数。下表概述了这些参数:
数据集格式
参数 | 描述 |
---|---|
文件扩展名 | 扩展模块不会应用到输出数据集。 |
字段分隔符 | 确定每个字段的分隔符。常用格式为 , 和 ;。 |
记录终止符 | 无法设置每行数据的终止符。对于 Windows,终止符为 \r\n,对于 Linux,终止符为 \n。 |
引号字符 | 决定用于引号的字符。 |
具有标题行 | 一个布尔值,用于确定输出表中是否包括表示字段名称的标题行。默认值为 true。 |
编码 | 该参数始终为 UTF-8。 |