Skip To Content

在门户中管理大数据文件共享

大数据文件共享通过门户内容页面注册。 当您在门户中添加大数据文件共享时,还会创建一个相关的数据存储项目。 添加云存储大数据文件共享时,会创建大数据文件共享项目、大数据文件共享类型的数据存储项目和云存储类型的数据存储项目。 大数据文件共享门户项目包括以下选项卡:

  • 概述 - 提供有关大数据文件共享和相关数据存储项目的常规信息。 相关数据存储项目可以通过您的大数据文件共享共享和删除。
  • 数据集 - 列出数据集并概述输入数据的方案。 数据集信息包括表示几何和时间的字段和格式。
  • 输出 - 概述可选的输出模板,允许您将结果写入大数据文件共享。 输出模板是可选的,在您注册大数据文件共享后创建。 要了解如何创建或编辑输出模板,请参阅创建、编辑和查看输出模板
  • 设置 - 描述内容状态、范围和删除保护。

您可以通过大数据文件共享项目查看和编辑数据集和方案以及输出模板。

注:
要共享大数据文件共享项目,您必须共享根数据存储项目。 类型的大数据文件共享的根数据存储是具有相同名称的数据存储(云)项目。 对于所有其他类型的大数据文件共享(文件共享HDFSHIVE),根数据存储是具有相同名称的数据存储(大数据文件共享)项目。

编辑大数据文件共享

通过门户创建大数据文件共享后,您可以使用大数据文件共享项目查看数据集、编辑数据集格式或同步大数据文件共享以添加其他数据集。

大数据文件共享由一个或多个数据集组成。 数据集数量取决于大数据文件共享位置中的文件夹数量。 您可以查看已成功注册到您的大数据文件共享中的数据集。

如果您希望在大数据文件共享中找到更多数据集或缺少任何数据集,请执行以下操作:

  • 确认是否正确注册顶级文件夹。 有关详细信息,请参阅准备数据
  • 确认输入数据是否采用允许的格式,例如分隔文件、shapefile、Parquet、或 Optimized Row Columnar (ORC) 的集合。
  • 对于文件集合,确保感兴趣的输入数据集的方案一致(单个数据集中的所有文件必须具有相同的字段)。

您可以使用数据集来验证大数据文件共享中的数据集数量或查看已注册数据集的数据集方案。 您可以通过以下步骤更新其几何、时间定义和字段名称从而修改选定数据集的方案。

编辑大数据文件共享输入数据集

您可通过编辑大数据文件共享项目修改数据的注册方式和用于分析的方式。 您还可以使用编辑选项查看您的数据当前是如何注册的。 有关该对话框中每个选项的详细信息,请参阅在大数据文件共享中编辑参数。 要编辑数据集参数,请执行以下操作:

  1. 在您的门户内容中打开大数据文件共享项目。
  2. 单击数据集选项卡。
  3. 单击要编辑的数据集旁边的编辑按钮。
  4. 使用字段几何时间文件选项修改数据集。
  5. 编辑完数据集属性后,单击保存

删除大数据文件共享输入数据集

您可通过删除数据集自定义大数据文件共享中可用的数据集。 删除数据集不会删除源位置的数据。 如果您之后希望使删除的数据集在大数据连接中可用,则可以使用同步选项。 要从大数据文件共享删除数据集,请执行以下操作:

  1. 在您的门户内容中打开大数据文件共享项目。
  2. 单击数据集选项卡。
  3. 选中要删除的数据集旁边的复选框。
  4. 单击数据集表顶部的删除按钮以从大数据文件共享中移除数据集。

编辑大数据文件共享清单或提示文件

在大数据文件共享的数据集选项卡的显示高级选项中,您可以查看、下载和上传清单或提示文件。 如果您上传清单,它会覆盖您对大数据文件共享数据集所做的任何更改,并替换现有数据集和方案。 有关大数据文件共享清单的详细信息,请参阅大数据文件共享清单。 要了解有关使用提示文件的更多信息,请参阅提示文件。 要编辑大数据文件共享清单或提示文件,请执行以下操作:

  1. 在您的门户内容中打开大数据文件共享项目。
  2. 单击数据集选项卡。
  3. 单击显示高级切换按钮将其打开。
    1. 要下载清单文件,请在清单部分单击下载
    2. 要下载提示文件,请在提示部分单击下载
  4. 使用文本编辑器可本地修改下载的 .json 清单文件或 .dat 提示文件并保存对其进行的更改。
    提示:
    提示文件的默认文件格式为 .dat。 下载文件后,您可以将其扩展名改为 .txt 并编辑该文件。
  5. 要上传已编辑的文件,请在大数据文件共享中,转到数据集选项卡,然后启用显示高级
    1. 要上传清单,请单击清单部分中的上传,然后浏览至更新的 .json 文件。
    2. 要上传提示文件,请单击提示部分中的上传,然后浏览至更新的 .txt 文件。
  6. 单击上传

如果您要上传提示文件,请同步大数据文件共享。 同步时,仅更新带有提示的数据集或新数据集,对不在提示文件中的任何其他数据集所做的更改将保持不变。

同步您的大数据文件共享

如果将新数据集添加到数据源或上传了提示文件,则可以在大数据连接中进行同步。 提示文件提供了重新生成大数据文件共享时使用的规范。

注:
同步大数据文件共享时,只会更新具有提示文件或新数据集的现有数据集的大数据文件共享。 您对提示文件中的数据集所做的任何编辑都将被提示文件中定义的规则覆盖。

  1. 在您的门户内容中打开大数据文件共享项目。
  2. 单击数据集选项卡。
  3. 单击同步按钮将其打开。

创建、编辑和查看输出模板

您可以创建、查看或编辑输出模板。 您还可以编辑输出模板的属性和设置,其中概述了如何将输出结果写入大数据文件共享。

要创建输出模板,请完成以下步骤:

  1. 在您的门户内容中打开大数据文件共享项目。
  2. 单击输出选项卡。
  3. 单击添加输出模板按钮。
  4. 为输出模板创建一个名称并选择输出模板将写入的文件类型。
    1. 通过单击几何选项卡设置此模板的几何格式。 您可以将其设置为一种、两种或所有几何类型。 格式选项与输入大数据文件共享相同。
    2. 单击时间选项卡,以为此模板设置时间格式。 您可以将时间留空,或者设置为即时、间隔或两者。 时间格式选项与输入大数据文件共享的时间格式相同。
  5. 完成后单击保存

使用相同的步骤查看或编辑模板。

大数据文件共享编辑参数

大数据文件共享编辑器包括以下四个部分:

  • 字段
  • 几何
  • 时间
  • 文件

如果清单生成未正确确定分割文件的字段名、编码、字段分隔符或引号字符,则建议在编辑数据前使用提示文件

字段

字段部分列出了数据集中的所有字段。 选择数据集后,可以看见每个字段的以下内容:

  • 字段的名称
  • 字段类型

您可以仅修改分隔文件的字段名称和类型。 如果您要修改多个字段名称,建议您使用提示文件。

了解有关支持的文件类型的详细信息

几何

几何部分列出了几何类型、表示方式和空间参考。 下表概述了根据输入数据集类型的可用选项和可进行更改的注释:

几何参数

参数描述分隔文件ShapefileORC 文件Parquet 文件

几何

几何类型。 选项包括折线。 如果没有几何(),则数据集为表。

可编辑

无法修改

可编辑

可编辑

空间参考 (WKID/WKT)

数据集的空间参考。 仅当几何不是无时才显示此选项。

可编辑。 默认情况下,会将其设置为 4326,WGS 1984。

无法修改

可编辑

可编辑

几何格式类型

每个要素的几何格式的设置方式。 选项是 XYZ(表示 x、y 和可选 z 值的字段 - XYZ 仅适用于点)、WKT(熟知文本)、WKB(熟知二进制)、GeoJsonEsriJsonEsriShape。 仅当几何不是无时才显示此选项。

可编辑

不可用;未显示选项

可编辑

可编辑

几何字段

用于指定哪些字段表示几何。

在某些情况下,该字段必须是特定的字段类型。 WKB 和 EsriShape 格式需要二进制字段,而 GeoJSON 和 EsriJSON 需要字符串字段。 XYZ 字段必须为数值型。 仅当几何不是无时才显示此选项。

可编辑

不可用;未显示选项

可编辑

可编辑

时间

时间部分将概述如何表示时间。 下表概述了根据输入数据集类型的可用选项和可进行更改的注释。 时间选项对于所有数据类型都是一样的,除非另有注释。

时间参数

参数描述示例

时间类型

输入时间的类型。 选项为时刻(单个时间点)、间隔(具有开始和结束时间的时间跨度)以及

即时

时间字段开始时间字段结束时间字段

如果您选择即时,则将看到时间字段。 如果选择间隔,您将看到开始时间字段结束时间字段

这些选项指定用于定义输入数据中的时间的字段和格式。

可以使用一个或多个字段来定义时间,并且可以针对单个字段使用一种或多种格式。 默认情况下,名称为“时间”的第一个字段将用作时间字段,使用评估的时间格式。 如果存在 shapefile,则将使用日期类型的第一个字段。

这些表必须至少填充一行。 要了解有关设置格式的详细信息,请参阅“时间格式”。

只有在时间类型不是的情况下,时间格式表才可用。

以下示例为通过两种不同格式表示时间的单个字段:

  • 字段 - TimeField 格式 - yy/MM/dd hh:mm:ss
  • 字段 - TimeField 格式 - yyyy-MMM-dd hh:mm:ss

以下示例为用于表示时间的两个字段:

  • 字段 - DateField 格式 - yy/MM/dd
  • 字段 - TimeField 格式 - hh:mm:ss

时区

输入时间的时区。 只有在时间类型不是的情况下,此选项才可用。 默认值为 UTC

UTC

时间格式

下表概述了如何表示时间格式。 所有示例均显示如何表示时间 2016 年 1 月 2 日下午 9:45:02.05。

大数据文件共享中的时间格式

格式化含义示例

yy

年,以两位数表示。

16

yyyy

年,以四位数表示。

2016

MM

月,以数字表示。

011

MMM

月,使用三个字母表示。

Jan

MMMM

月,使用完整的拼写表示。

January

dd

日期。

022

HH

小时,采用 24 小时制;值介于 0 到 23 之间。

21

hh

小时,采用 12 小时制;值介于 1 到 12 之间。

9

mm

分钟;值介于 0 到 59 之间。

45

ss

秒钟;值介于 0 到 59 之间。

02

SSS

毫秒;值介于 0 到 999 之间。

50

a

AM/PM 标记。

PM

epoch_millis

时间以从新纪元开始的微秒为单位。

1509581781000

epoch_seconds

时间以从新纪元开始的秒为单位。

1509747601

Z

以小时表示的时区偏差。

-0100 -01:00

ZZZ

以 ID 表示的时区偏差。

America/Los_Angeles

''

使用单引号添加不表示此表中列出的值的文本。

'T'

下表显示了同一日期(2016 年 1 月 2 日下午 9:45:02.05)的不同格式示例:

时间格式示例

输入日期格式化

01/02/2016 9:45:02PM

MM/dd/yyyy hh:mm:ssa

Jan02-16 21:45:02

MMMdd-yy HH:mm:ss

January 02 2016 9:45:02.050PM

MMMM dd yyyy hh:mm:ss.SSSa

01/02/2017T9:45:14:05-0000

MM/dd/yyyy'T'HH:mm:ssZ

文件

文件部分概述了数据采用的格式。 数据可能采用以下任一格式:

  • Shapefile (.shp)
  • 分隔文件(例如 .csv
  • Parquet 文件
  • ORC 文件

可用参数可能因为数据集的不同而有所差异。 对于 shapefile、ORC 和 Parquet 文件,唯一参数为文件类型,不能进行修改。 如果输入数据集为分隔文件,则可修改多个参数。 要修改分隔文件的值,请使用提示文件并重新生成清单。 下表概述了这些参数:

数据集格式

参数描述

文件扩展名

列出输入数据集上的文件类型扩展名。 常用格式为 .csv.txt

字段分隔符

确定每个字段的分隔符。 常用格式为 ,;

记录结束符

确定每行数据的结束符。 常用格式为 \n\t

引号字符

决定用于引号的字符。

具有标题行

确定输入表是否包含标题行的布尔值。 如果包含标题行,则标题将用于字段名。 字段名信息用于预测几何和时间字段。

编码

用于文件的编码类型。 默认情况下为 UTF-8。

大数据文件共享输出模板编辑参数

大数据文件共享输出模板编辑器包括以下三个部分:

  • 名称和文件类型
  • 几何格式
  • 时间格式
注:

输入大数据文件共享具有字段部分。 输出模板没有字段部分,因为结果字段由 GeoAnalytics Tools 创建的结果决定。 ORC 仅支持包含基本拉丁字母和数字字符的字段名称。 字段名称中的所有其他字符均会替换为下划线。

输出几何格式

几何部分列出了您为每个几何类型(点、线、面)选择的输出几何的格式化方式。 确定输出几何分为两个部分:

  • 空间参考 - 您可以将其留空,该部分默认使用工具结果。 可以提供 WKID 或 WKT 字符串,所有结果都将投影到该空间参考。 此值将共享到所有输出几何。
  • 几何格式类型和字段 - 下面将对此进行更详细的描述。
对于每个模板,您可以定义数据集几何的格式化方式,以及表示几何的字段名称。 根据数据集类型(分隔文件、shapefile、ORC 或 Parquet),您可以使用各种格式输出结果。 Shapefile 没有指定的格式,将始终写入 shapefile 数据集。 下表概述了这些格式:

输出几何格式

几何类型输出字段分隔文件ShapefileORC 文件Parquet 文件

XYZ - 包括 X、Y 和可选的 Z 字段。 此选项仅可用于点要素。

默认情况下,将创建名为 XYZ 的三个新字段。 您可以选择更改这些字段的名称。

是是是

WKT

默认情况下,将创建一个名为 Geometry 的新字段。 您可以选择更改输出字段名称。

是是是

GeoJSON

默认情况下,将创建一个名为 Geometry 的新字段。 您可以选择更改输出字段名称。

是是是

EsriJSON

默认情况下,将创建一个名为 Geometry 的新字段。 您可以选择更改输出字段名称。

是是是

WKB

默认情况下,将创建一个名为 Geometry 的新字段。 您可以选择更改输出字段名称。

是是

EsriShape

默认情况下,将创建一个名为 Geometry 的新字段。 您可以选择更改输出字段名称。

是是

输出时间格式

时间部分将概述如何表示输出时间。 格式化时间需要以下信息:

  • 时刻和间隔的格式。
  • 要写入时间的字段名称。
  • 时间的写入格式(字符串或日期)。 请注意,分隔文件只能使用字符串进行格式化。
  • 对于间隔,还需要指明表示开始和结束时间字段。

时间格式与输入大数据文件相同。 请参阅大数据文件共享中的时间格式

输出数据集格式

数据集格式部分概述了数据将写入的输出格式。 数据可能采用以下任一格式:

  • Shapefile (.shp)
  • 分隔文件(例如 .csv
  • Parquet 文件
  • ORC 文件

可用参数可能因为数据集的不同而有所差异。 对于 shapefile、ORC 和 Parquet 文件,唯一参数为文件类型,不能进行修改。 如果数据集为分隔文件,则可在 ArcGIS Server Manager 中修改多个参数。 下表概述了这些参数:

数据集格式

参数描述

文件扩展名

扩展模块不会应用到输出数据集。

字段分隔符

确定每个字段的分隔符。 常用格式为 ,;

记录结束符

无法设置每行数据的终止符。 对于 Windows,终止符为 \r\n。 对于 Linux,为 \n

引号字符

决定用于引号的字符。

具有标题行

一个布尔值,用于确定输出表中是否包括表示字段名称的标题行。 默认值为 true

编码

始终为 UTF-8。