查找热点工具可以确定数据在空间模式方面是否存在任何统计显著性的聚类。
工作流示意图
示例
城市警方正在执行分析,以确定暴力犯罪是否与失业率有关。将为暴力犯罪和失业多发区域内的高中执行扩展的暑期工作计划。查找热点将用于查找具有统计显著性犯罪和失业热点的区域。
政治战略家想知道在上次选举中哪些区域对某一特定的政党具有最强或最弱的支持度。该信息可能对指导未来选举的竞选策略有所帮助。战略家从共和党的得票率减去民主党的得票率,然后使用查找热点以找到冷点与热点之间的差异。热点(红色)将表示强烈的共和党支持,而冷点(蓝色)则表示强烈的民主党支持。
保护官员正在研究树木病害,以优先考虑森林中的哪些区域应接受治疗,并了解有关存在某些抵抗力的区域的详细信息。查找热点工具可用于查找病株(热点)和健康株(冷点)的聚类。
用法说明
输入要素可以是点或面。
查找高低聚类参数可用于评估要素的空间排列。如果要素为面要素,则必须选择一个字段。将使用选定字段中的数字确定聚类。可使用字段或 Point Counts 选项分析点要素。如果使用了 Point Counts,则此工具将会确定这些点自身是否为聚类,而不是高低字段值聚类。
如果使用 Point Counts 分析这些点,则将有两个新选项可用。某一范围内的点计数参数允许这些点在 Fishnet Grid、Hexagon Grid 或内容的一个面图层(如县或邮政编码)内进行聚合。定义点可能存在的位置参数用于创建一个或多个感兴趣的区域。此参数的三个选项为 None,意味着使用了所有点,通过内容的面图层定义了面,以及使用绘制工具创建了面。
您的数据可以使用除以参数进行归一化。Esri Population 数据使用 GeoEnrichment,且需要使用配额。另一个选项是使用输入图层的一个字段进行归一化。可用于归一化的某些可能值包括家庭数量或面积。
选项可用于设置特定的像元大小或距离范围以供分析。
输出图层将提供其他字段,包含诸如每个要素的统计显著性、p 值和 z 得分等®信息。输出图层还包含其项目详细信息的描述部分中的统计分析信息。
查找热点工作原理
即使是随机的空间模式也会展现出一定程度的聚类。此外,即使不存在模式,我们的眼睛和大脑也会出于本能进行查找。因此,很难辨别数据中的模式是正在研究的真实空间过程产生的结果还是仅为随机产生的结果。这就是研究人员和分析人员使用统计方法(如查找热点 (Getis-Ord Gi*))量化空间模式的原因。
该工具可对数据集中的每一个要素计算 Getis-Ord Gi* 统计(称为 G-i-星号)。通过得到的 z 得分和 p 值,您可以知道高值或低值要素在空间上发生聚类的位置。查找热点工具将根据输入数据的特点计算最佳默认值,然后自动应用错误发生率 (FDR) 校正。将对邻近要素环境中的每个要素进行分析。高值要素往往容易引起注意,但可能不是具有显著统计学意义的热点。要成为具有显著统计性的热点,要素应具有高值,且被其他同样具有高值的要素所包围。某个要素及其相邻要素的局部总和将与所有要素的总和进行比较;当局部总和与所预期的局部总和有很大差异,以致于无法成为随机产生的结果时,会产生一个具有显著统计学意义的 z 得分。
在数据中找到具有统计显著性的聚类时,您会获得非常有价值的信息。了解聚类发生的地点与时间可对您观察到的模式的形成过程提供重要线索。例如,如果需要制定有效的预防手段、分配有限的警力、发起小区监督计划、授权深入的刑事调查或者识别潜在嫌疑人,则掌握相关小区持续高发的入室盗窃信息就十分重要。
分析面要素
许多数据可用作人口普查区、县、选民区、医院区、宗地、公园和娱乐边界、流域、土地覆盖分类以及气候带等面要素。当分析图层包括面要素时,需要指定用于查找高值和低值聚类的数字字段。该字段可用于表示:
- 计数(如家庭数)
- 比率(如拥有大学学位的人口比例)
- 平均值(如平均家庭收入或家庭收入中位数)
- 指数(如指明家庭在体育用品方面的开销是高于还是低于全国平均水平的得分)
查找热点工具将使用所提供的字段创建一个地图(结果图层),用以显示包含具有统计显著性的高值(热点:红色)聚类和低值(冷点:蓝色)聚类的区域。
分析点要素
有多种数据可用作点要素。最常表示为点的要素示例包括犯罪事件、学校、医院、紧急呼叫事件、交通事故、水井、树和船只。有时您会对分析与每个点要素相关的数据值(字段)感兴趣。在其他情况下,您只对评估这些点本身的聚类感兴趣。是否提供字段的决定取决于要提出的问题。
找出与点要素相关的高值和低值的聚类
可以提供分析字段来解答如下问题:高值和低值在哪里存在聚类? 所选的字段可代表下列项中的某些项:
- 计数(如街道十字路口处发生的交通事故数)
- 比率(如城市失业率,各城市以点要素表示)
- 平均值(如学校间数学测验的平均得分)
- 指数(如国家汽车经销商的消费者满意度得分)
找出高点计数和低点计数的聚类
对于某些点数据来说,通常每个点代表一个事件、事件点或存在/不存在的指示,不会有明确要使用的分析字段。在这些情况下,您只想知道聚类在何处(具有统计显著性的)异常密集或稀疏。对于此类分析而言,可将面要素(工具创建的渔网网格,或所提供的面图层)放置于点上,并计算每个区域中的点数。然后工具将发现与每个面要素相关的高点计数和低点计数的聚类。
定义可能存在点的区域
在事件点要素可能发生的所有位置中指定区域图层或绘制区域,用于定义要执行分析的研究区域。对于此选项,查找热点工具使用渔网网格叠加定义的研究区域,并对每个渔网方块中的点进行计数。不使用该选项指明事件点可能存在的位置时,查找热点工具将仅分析至少包含一个点计数的渔网方块。但是,使用该选项定义可能存在点的位置时,将完成对所定义的边界区域中的所有渔网方块的分析。
在您自己的聚合面内计算点数
在某些情况下,与默认渔网网格相比,面要素(如人口普查区、警务区或宗地)对分析更有意义。
选择除数
识别热点和冷点有两种常用方法:
- 通过计数 - 当分析某个特定数据集时,通常想要找到所研究区域的每个聚合面中要素数的热点和冷点。例如,您可能想找到犯罪发生次数最高的热点和犯罪发生次数最低的冷点以分配资源。
- 通过强度 - 另一方面,考虑影响特定现象基础分布的分析和理解模式也具有意义。这个概念通常称为归一化,即:一个数值属性值除以另一个数值属性值,以基于区域的大小或每个区域中的要素数量将差异最小化的过程。例如,对于犯罪,您可能想要了解考虑基础人口的存在高犯罪数和低犯罪数聚类的区域。在此情况下,需要计算每个区域中的犯罪数(不论该区域是渔网网格还是其他区域数据集),并且将总犯罪数除以该区域的总人口数。这将得到犯罪率或人均犯罪数。找到人均犯罪数的热点和冷点有助于从不同角度做出决策。
这两种对研究区域数据的分析方法均有效,具体取决于您所询问的问题。
选择合适的除数属性十分重要。您需要确保除数属性是实际上能影响您所分析的特定现象分布的属性。
当选择除数为 Esri Population 时,将使用来自 Esri Demographics Global Coverage 的人口数据。确保观察数据的分辨率可用于您感兴趣的区域,以确保它与正在丰富的区域(您所提供的聚合面或正在创建的渔网方块)的大小兼容。
解释结果
查找热点工具的输出结果是地图。对于该结果图层地图中的点或区域,红色或蓝色显示越深,越能说明聚类不是随机产生的结果。另一方面,使用米黄色显示的点或区域并不属于任何具有统计显著性聚类;与这些要素相关联的空间模式很有可能是随机产生的结果。有时,分析结果会指出不存在任何具有统计显著性的聚类。这是非常重要的信息。空间模式为随机时,您将无法了解根本原因。对于这些情况,结果图层中的所有要素将以米黄色显示。但是,当确实找到具有统计显著性的聚类时,聚类发生的位置将是有关创建聚类原因的重要线索。例如,查找与特定环境毒素相关的癌症的具有统计显著性的空间聚类,可以促成用于保护人民的政策和行动。同样,查找与学校所提倡课外体育计划相关的儿童肥胖冷点,可为更广泛地鼓励这些种类的计划提供强有力的证明。
疑难解答
查找热点工具使用的统计方法以概率论为基础,因此,需要限制最小要素数量以进行有效操作。该统计方法还需要各种计数或分析字段值。例如,如果您按人口普查区分析犯罪事件,却意外发现每个区域中都有相同的犯罪事件数,则工具无法进行分析。以下表是使用查找热点工具时可能遇到的消息的说明:
消息 | 问题 | 解决方案 |
---|---|---|
所选的分析选项最少需要 60 个点以计算热点和冷点。 | 您的点分析图层中没有足够用于计算可靠结果的点要素。 | 显而易见的解决方案是向分析图层中添加更多点。 此外,您也可以尝试定义边界分析区域,从而添加本应该出现但并未出现的相关点的位置信息。使用该方法您最少需要 30 个点。 还可以尝试提供可叠加点的聚合区域。要执行该分析,这些区域内最少需要 30 个面区域和 30 个点。 如果您有至少 30 个点,您可能需要指定分析字段。问题将从哪些位置具有很多或很少的点变为高和低分析字段值在哪些位置进行空间聚类。 |
所选的分析选项最少需要 30 个点,其中分析字段中包含有效数据,以计算热点和冷点。 | 分析图层中没有足够的点或与非 NULL 分析字段值相关联的点用于计算可靠结果。 | 遗憾的是,如果少于 30 个点,则该分析方法将不适用于您的数据。如果多于 30 个点并看到此消息,指定的分析字段的值可能为 NULL。将跳过具有 NULL 分析字段值的点。另一种可能是,存在减少用于分析的点数的活动过滤器。 |
所选的分析选项最少需要 30 个面,其中分析字段中包含有效数据,以计算热点和冷点。 | 分析图层中没有足够的面区域或与非 NULL 分析字段值相关联的区域要素用于计算可靠结果。 | 遗憾的是,如果少于 30 个面区域,则该分析方法将不适用于您的数据。如果多于 30 个面并看到此消息,指定的分析字段的值可能为 NULL。将跳过具有 NULL 分析字段值的面区域。另一种可能是,存在减少用于分析的多边形区域数的活动过滤器。 |
所选的分析选项最少需要 30 个点位于边界多边形区域中。 | 将仅分析您所绘制或提供的边界分析区域内的点。为提供可靠的结果,边界分析区域中应至少包含 30 个点。 | 遗憾的是,如果点数没有达到 30 个,则该方法不适用于您的数据。然而,即使至少拥有 30 个点,该解决方案通常还是提供不同,或许更大的边界分析区域。 另一种方案为提供最少具有 30 个聚合面的面图层,这些聚合面至少叠加 30 个点。提供聚合区域后,将在每个区域中执行点计数分析。 |
所选的分析选项最少需要 30 个点位于聚合面中。 | 将仅在分析中包含聚合面中的点。为了提供可靠的结果,提供的多边形区域中应至少包含 30 个点。 | 遗憾的是,如果点数没有达到 30 个,则该方法不适用于您的数据;否则,应绘制或提供至少叠加 30 个点的边界分析区域。边界区域应反映所有可能出现点的位置。 |
所选的分析选项需要至少 30 个聚合区域。 | 所选的选项将叠加点上方的聚合区域,然后计算每个区域内的点数。至少需要 30 个计数(30 个区域),才能得出可靠的结果。 | 如果可提供至少 30 个聚合区域中的至少 30 个点,则可以计算出可靠结果。如果没有 30 个聚合区域,您可尝试绘制或提供至少叠加 30 个点的边界分析区域。这些边界区域应反映所有可能出现点的位置。 |
如果每个面区域中的点数相同,则无法计算热点和冷点。请尝试其他多边形区域或分析选项。 | 查找热点工具计算每个聚合区域中的点数时,发现所有计数都相同。要计算结果,该工具至少需要所获取的计数值具有差异。 | 可提供其他不会导致所有区域中都包含完全相同点数的聚合区域。 除了聚合区域之外,您也可以尝试绘制或提供边界分析区域。 此外,还可以指定分析字段。但是,问题将从哪些位置具有很多或很少的点变为高和低分析字段值在哪些位置进行空间聚类。 |
点的位置没有足够的差异来计算热点和冷点。例如,重合点会减少空间差异。您可尝试提供边界区域、聚合区域(最少 30 个)或分析字段。 | 基于点数及其分布方式,工具将创建渔网网格以叠加点。计算每个渔网方块中的点数并移除计数为零的方块后,只剩不到 30 个方块。该工具需要至少 30 个计数(30 个方块),才能提供可靠结果。 | 如果点仅占据很少的唯一位置(如果有多个重合点),则优秀的解决方案为提供可叠加点的聚合区域,或绘制并提供指明点可能或不可能出现的位置的边界分析区域。 另一种方案为指定分析字段。但是,问题将从哪些位置具有很多或很少的点变为高和低分析字段值在哪些位置进行空间聚类。 |
边界面区域中的点之间没有足够的差异。可尝试提供更大的边界。 | 基于点位置和点数,工具将创建渔网网格以叠加点。计算每个渔网方块中的点数并移除边界分析区域之外的方块后,只剩下不到 30 个方块。该工具需要至少 30 个计数(30 个方块),才能提供可靠结果。 | 如果点位于边界分析区域中的多个位置,您只需创建或提供更大的边界。如果点仅占据很少的唯一位置(如果有多个重合点),则比较好的解决方案为提供可叠加点的聚合区域。 另一种方案为指定分析字段。但是,问题将从哪些位置具有很多或很少的点变为高和低分析字段值在哪些位置进行空间聚类。 |
分析字段中的所有值可能均相同。如果要分析的字段中没有差异,则无法计算热点和冷点。 | 您很可能在分析图层中指定了所有点要素或面要素均具有相同值的分析字段。如果没有多种值可用,则此工具使用的统计数据无法进行分析。 | |
无法为所提供的数据计算热点和冷点。如果可行,请尝试指定分析字段。 | 工具创建渔网网格并计算每个方块中的点数时,所有方块的计数相同,但这种可能性不大。 | |
像元大小应小于距离范围。 | 您已提供了值小于每个格网像元大小的距离范围。 | 选中为距离范围和像元大小指定的单位,使用由工具计算的默认值,或使用大于单个格网像元大小的值。 |
有关“查找热点”工具所采用算法的其他信息,请参阅优化的热点分析工作原理。
类似工具
查找热点工具可以确定数据在空间模式方面是否存在任何统计显著性的聚类。其他可能有用的工具包括:
Map Viewer 分析工具
如果您有兴趣在数据的空间模式中查找异常值,可以使用查找异常值工具。
如果您有兴趣创建点或线要素的密度地图,可以使用计算密度工具。
ArcGIS Pro 分析工具
查找热点可执行热点分析 (Getis-Ord Gi*) 和优化的热点分析工具中所使用的统计数据。
查找热点同样适用于 ArcGIS Pro。要从 ArcGIS Pro 运行工具,则工程的活动门户必须运行 ArcGIS Enterprise 10.5 或更高版本。您还必须使用相应帐户登录到门户,该帐户具有在门户中执行标准要素分析的权限。