Skip To Content

查找异常值

查找异常值查找异常值工具可以确定数据在空间模式方面是否存在任何具有统计显著性的异常值。

工作流示意图

“查找异常值”工作流示意图

示例

  • 我们可以在洛杉矶的哪些地方找到异常的消费模式?
  • 研究区域中的富裕区和贫困区之间的最清晰边界在哪里?
  • 在您的区域中,是否有在周围高绩效商店的环视下仍在努力提高其低销售额的商店?
  • 研究区域中意想不到的糖尿病高发地在哪里?
  • 美国哪些县的预期寿命与其相邻县相比异常低?

用法说明

输入要素可以是点或面。

查找异常值参数可用于评估要素的空间排列。如果要素为面要素,则必须选择一个字段。将使用选定字段中的数字确定异常值。可使用字段或点计数选项分析点要素。如果使用了点计数,则此工具将会确定这些点本身是否异常离散或聚类,而不是高低字段值。

如果使用点计数分析这些点,则将有两个其他选项可用。某一范围内的点计数参数允许这些点在渔网格网六边形格网内容的一个面图层(如县或邮政编码)内进行聚合。定义点可能存在的位置参数用于创建一个或多个感兴趣的区域。此参数的三个选项为,意味着使用了所有点,通过内容的面图层定义了面,以及使用绘制工具创建了面。

您的数据可以使用除以参数进行归一化。Esri 人口数据使用 GeoEnrichment,且需要使用配额。另一个选项是使用输入图层的一个字段进行归一化。可用于归一化的某些可能值包括家庭数量或面积。

该工具使用的统计数据用到了排列以确定找到您所分析值的实际空间分布的可能性,方法是将您的值与一组随机生成的值进行比较。在优化参数中选择排列数时需要兼顾精度和所需增加的处理时间(速度)。最初研究问题时可以使用较少的排列数,但是为了获得最终结果,向精度中增加排列数不失为一种最佳做法。

选项下拉菜单可以用于设置特定的像元大小距离范围以供分析使用。

输出图层将提供附加字段,其中包含诸如 Cluster/Outlier Type、每个要素在其分析中所包括的相邻要素数以及每个要素的 Local Moran's I IndexValueScore 等信息。输出图层还包含其项目详细信息描述部分中的统计分析信息。

查找异常值的工作原理

由于即使不存在模式,我们的眼睛和大脑也会出于本能进行查找,因此,很难辨别数据中的模式是正在研究的真实空间过程产生的结果还是仅为随机产生的结果。这就是研究人员和分析人员使用查找异常值 (Anselin Local Moran's I) 等统计方法量化空间模式的原因。在数据中找到具有统计显著性的异常值或聚类时,您会获得非常有价值的信息。了解异常值和聚类发生的地点与时间可对您观察到的模式的形成过程提供重要线索。例如,如果需要制定有效的预防手段、分配有限的警力、发起小区监督计划、授权深入的刑事调查或者识别潜在嫌疑人,则掌握相关小区持续高发的入室盗窃信息就十分重要。

查找异常值工具会计算数据集中每个要素的 Local Moran's 指数 (LMiIndex)。正值表示要素具有包含同样高或同样低的属性值的邻近要素;该要素是聚类的一部分。负值表示要素具有包含不同值的邻近要素;该要素是异常值。在任何一个实例中,要被视为具有统计显著性的聚类和异常值,要素的 p 值必须足够小。有关确定统计显著性的详细信息,请参阅什么是 z 得分? 什么是 p 值?。请注意,Local Moran's I 指数 (I) 是相对测量,只能在其计算出的 z 得分或 p 值环境中进行说明。Cluster/Outlier Type (COType) 字段可区分具有统计显著性的高值 (HH) 聚类、低值 (LL) 聚类、高值主要由低值围绕的异常值 (HL) 以及低值主要由高值围绕的异常值 (LH)。

分析面要素

许多数据可用作人口普查区、县、选民区、医院区、宗地、公园和娱乐边界、流域、土地覆盖分类以及气候带等面要素。当分析图层包括面要素时,需要指定用于查找高值和低值异常值的数字字段。该字段可用于表示:

  • 计数(如家庭数)
  • 比率(如拥有大学学位的人口比例)
  • 平均值(如平均家庭收入或家庭收入中位数)
  • 指数(如指明家庭在体育用品方面的开销是高于还是低于全国平均水平的得分)

查找异常值工具将使用您提供的字段创建一个地图(结果图层),用以显示包含具有统计显著性的高值(红色)和低值(蓝色)异常值的区域以及高值(粉红色)和低值(浅蓝色)聚类的区域。

分析点要素

有多种数据可用作点要素。最常表示为点的要素示例包括犯罪事件、学校、医院、紧急呼叫事件、交通事故、水井、树和船只。有时您会对分析与每个点要素相关的数据值(字段)感兴趣。在其他情况下,您只对评估这些点本身的聚类或离散感兴趣。是否提供字段的决定取决于要提出的问题。

找出与点要素相关的高值和低值的异常值

使用分析字段分析点可以提供分析字段来解答如下问题:哪里存在异常的高值和低值? 所选的字段可代表下列项中的某些项:

  • 计数(如街道十字路口处发生的交通事故数)
  • 比率(如城市失业率,各城市以点要素表示)
  • 平均值(如学校间数学测验的平均得分)
  • 指数(如国家汽车经销商的消费者满意度得分)

找出高点计数和低点计数的异常值

分析点,无分析字段对于某些点数据来说,通常每个点代表一个事件、事件点或存在/不存在的指示,不会有明确要使用的分析字段。在这些情况下,您只想知道聚类在何处(具有统计显著性的)异常密集或稀疏。对于此类分析而言,可将面要素(工具创建的渔网格网和六边形格网,或所提供的面图层)放置于点上,并计算每个区域中的点数。然后工具将发现与每个面要素相关的高点计数和低点计数的异常值。

定义可能存在点的区域

点,无分析字段,边界研究区域在事件点要素可能发生的所有位置中指定区域图层或绘制区域,用于定义要执行分析的研究区域。对于此选项,查找异常值工具使用渔网(默认)格网或六边形格网叠加定义的研究区域,并对每个格网像元中的点进行计数。不使用该选项指明事件点可能存在的位置时,查找异常值工具将仅分析至少包含一个点计数的格网像元。但是,使用该选项定义可能存在点的位置时,将完成对所定义的边界区域中的所有格网像元的分析。

在您自己的聚合面内计算点数

点,无分析字段,聚合区域在某些情况下,与默认渔网或六边形格网相比,面要素(如人口普查区、警务区或宗地)对分析更有意义。

选择除数

归一化数据集识别异常值有两种常用方法:

  • 通过计数 - 当分析某个特定数据集时,通常想要找到所研究区域的每个聚合面中要素数的异常值。例如,您可能希望在一般犯罪率低的地区找到犯罪发生次数最高的异常值,或者在犯罪率较高的地区找到犯罪发生次数最低的异常值,以最大限度地发挥您分配的资源的效果。
  • 通过强度 - 另一方面,考虑影响特定现象基础分布的分析和理解模式也具有意义。这个概念通常称为归一化,即:一个数值属性值除以另一个数值属性值,以基于区域的大小或每个区域中的要素数量将差异最小化的过程。例如,对于犯罪,您可能想要了解考虑基础人口的存在高犯罪数和低犯罪数异常值或聚类的区域。在此情况下,需要计算每个区域中的犯罪数(不论该区域是渔网网格还是其他区域数据集),并且将总犯罪数除以该区域的总人口数。这将得到犯罪率或人均犯罪数。找到人均犯罪数的异常值区域有助于从不同角度做出决策。

这两种对研究区域数据的分析方法均有效,具体取决于您所询问的问题。

选择合适的除数属性十分重要。您需要确保除数属性是实际上能影响您所分析的特定现象分布的属性。

当选择除以 Esri 人口时,将使用来自 Esri Demographics Global Coverage 的人口数据。确保观察数据的分辨率可用于您感兴趣的区域,以确保它与正在丰富的区域(您所提供的聚合面或正在创建的渔网方块)的大小兼容。

解释结果

查找异常值工具的输出结果是地图。对于该结果图层地图中的点或区域,深红色和深蓝色表示研究区域中的统计显著性异常值。浅蓝色和粉红色表示统计显著性聚类。另一方面,使用米黄色显示的点或区域并不属于任何具有统计显著性的异常值或聚类;与这些要素相关联的空间模式很有可能是随机产生的结果。有时,分析结果会指出不存在任何具有统计显著性的异常值或聚类。这是非常重要的信息。空间模式为随机时,您将无法了解根本原因。对于这些情况,结果图层中的所有要素将以米黄色显示。但是,当确实找到具有统计显著性的异常值或聚类时,这些位置将是有关创建现象的重要线索。例如,查找与特定环境毒素相关的高患癌率的统计显著性空间异常值,可以促成用于保护人民的政策和行动。同样,查找与学校所提倡课外体育计划相关的儿童肥胖低异常值,可为更广泛地鼓励这些种类的计划提供强有力的证明。

疑难解答

查找异常值工具使用的统计方法以概率论为基础,因此,需要限制最小要素数量以进行有效操作。该统计方法还需要各种计数或分析字段值。例如,如果您按人口普查区分析犯罪事件,却意外发现每个区域中都有相同的犯罪事件数,则工具无法进行分析。以下表是使用查找异常值工具时可能遇到的消息的说明:

消息问题解决方案

所选的分析选项最少需要 60 个点以计算热点和冷点。

您的点分析图层中没有足够用于计算可靠结果的点要素。

显而易见的解决方案是向分析图层中添加更多点。

此外,您也可以尝试定义边界分析区域,从而添加本应该出现但并未出现的相关点的位置信息。使用该方法您最少需要 30 个点。

还可以尝试提供可叠加点的聚合区域。要执行该分析,这些区域内最少需要 30 个面区域和 30 个点。

如果您有至少 30 个点,您可能需要指定分析字段。问题将从哪些位置具有很多或很少的点变为高和低分析字段值在哪些位置进行空间聚类。

所选的分析选项最少需要 30 个点,其中分析字段中包含有效数据,以计算热点和冷点。

分析图层中没有足够的点或与非 NULL 分析字段值相关联的点用于计算可靠结果。

遗憾的是,如果少于 30 个点,则该分析方法将不适用于您的数据。如果多于 30 个点并看到此消息,指定的分析字段的值可能为 NULL。将跳过具有 NULL 分析字段值的点。另一种可能是,存在减少用于分析的点数的活动过滤器

所选的分析选项最少需要 30 个面,其中分析字段中包含有效数据,以计算热点和冷点。

分析图层中没有足够的面区域或与非 NULL 分析字段值相关联的区域要素用于计算可靠结果。

遗憾的是,如果少于 30 个面区域,则该分析方法将不适用于您的数据。如果多于 30 个面并看到此消息,指定的分析字段的值可能为 NULL。将跳过具有 NULL 分析字段值的面区域。另一种可能是,存在减少用于分析的多边形区域数的活动过滤器

所选的分析选项最少需要 30 个点位于边界多边形区域中。

将仅分析您所绘制或提供的边界分析区域内的点。为提供可靠的结果,边界分析区域中应至少包含 30 个点。

遗憾的是,如果点数没有达到 30 个,则该方法不适用于您的数据。然而,即使至少拥有 30 个点,该解决方案通常还是提供不同,或许更大的边界分析区域

另一种方案为提供最少具有 30 个聚合面的面图层,这些聚合面至少叠加 30 个点。提供聚合区域后,将在每个区域中执行点计数分析。

所选的分析选项最少需要 30 个点位于聚合面中。

将仅在分析中包含聚合面中的点。为了提供可靠的结果,提供的多边形区域中应至少包含 30 个点。

遗憾的是,如果点数没有达到 30 个,则该方法不适用于您的数据;否则,应绘制或提供至少叠加 30 个点的边界分析区域。边界区域应反映所有可能出现点的位置。

所选的分析选项需要至少 30 个聚合区域。

所选的选项将叠加点上方的聚合区域,然后计算每个区域内的点数。至少需要 30 个计数(30 个区域),才能得出可靠的结果。

如果可提供至少 30 个聚合区域中的至少 30 个点,则可以计算出可靠结果。如果没有 30 个聚合区域,您可尝试绘制或提供至少叠加 30 个点的边界分析区域。这些边界区域应反映所有可能出现点的位置。

如果每个面区域中的点数相同,则无法计算热点和冷点。请尝试其他多边形区域或分析选项。

查找热点工具计算每个聚合区域中的点数时,发现所有计数都相同。要计算结果,该工具至少需要所获取的计数值具有差异。

可提供其他不会导致所有区域中都包含完全相同点数的聚合区域

除了聚合区域之外,您也可以尝试绘制或提供边界分析区域

此外,还可以指定分析字段。但是,问题将从哪些位置具有很多或很少的点变为高和低分析字段值在哪些位置进行空间聚类。

点的位置没有足够的差异来计算热点和冷点。例如,重合点会减少空间差异。您可尝试提供边界区域、聚合区域(最少 30 个)或分析字段。

基于点数及其分布方式,工具将创建渔网网格以叠加点。计算每个渔网方块中的点数并移除计数为零的方块后,只剩不到 30 个方块。该工具需要至少 30 个计数(30 个方块),才能提供可靠结果。

如果点仅占据很少的唯一位置(如果有多个重合点),则优秀的解决方案为提供可叠加点的聚合区域,或绘制并提供指明点可能或不可能出现的位置的边界分析区域

另一种方案为指定分析字段。但是,问题将从哪些位置具有很多或很少的点变为高和低分析字段值在哪些位置进行空间聚类。

边界面区域中的点之间没有足够的差异。可尝试提供更大的边界。

基于点位置和点数,工具将创建渔网网格以叠加点。计算每个渔网方块中的点数并移除边界分析区域之外的方块后,只剩下不到 30 个方块。该工具需要至少 30 个计数(30 个方块),才能提供可靠结果。

如果点位于边界分析区域中的多个位置,您只需创建或提供更大的边界。如果点仅占据很少的唯一位置(如果有多个重合点),则比较好的解决方案为提供可叠加点的聚合区域

另一种方案为指定分析字段。但是,问题将从哪些位置具有很多或很少的点变为高和低分析字段值在哪些位置进行空间聚类。

分析字段中的所有值可能均相同。如果要分析的字段中没有差异,则无法计算热点和冷点。

您很可能在分析图层中指定了所有点要素或面要素均具有相同值的分析字段。如果没有多种值可用,则此工具使用的统计数据无法进行分析。

可指定不同的分析字段,或针对点要素指定分析点密度,而不是点值。

无法为所提供的数据计算热点和冷点。如果可行,请尝试指定分析字段。

工具创建渔网网格并计算每个方块中的点数时,所有方块的计数相同,但这种可能性不大。

解决方案为提供您自己的聚合区域、绘制或提供边界分析区域指定分析字段

像元大小应小于距离范围。

您已提供了值小于每个格网像元大小的距离范围。

选中为距离范围像元大小指定的单位,使用由工具计算的默认值,或使用大于单个格网像元大小的值。

有关查找异常值工具所采用算法的其他信息,请参阅优化的异常值分析工作原理。

类似工具

使用查找异常值可以确定数据在空间模式方面是否存在任何统计显著性异常值。其他可能有用的工具如下所述。

Map Viewer 分析工具

如果您有兴趣在数据的空间模式中查找高值和低值的统计显著性聚类,可以使用查找热点工具。

如果要使用点测量或线测量来创建密度地图,请使用计算密度工具。

ArcGIS Pro 分析工具

查找异常值可执行聚类和异常值分析 (Anselin Local Moran's I) 以及优化的异常值分析中所使用的统计数据。