“查找热点”工具可以确定数据在空间模式方面是否存在任何统计显著性的聚类。
- 各个点要素(犯罪事件、树木、交通事故)是否可进行聚类? 您又是如何确定的?
- 您是否确实发现了具有统计显著性的热点(消费、婴儿死亡率、长期保持高测试分数)?或者说如果更改地图的符号化方式,地图会呈现出另一种结果吗?
即使是随机的空间模式也会展现出一定程度的聚类。此外,即使不存在模式,我们的眼睛和大脑也会出于本能进行查找。因此,很难辨别数据中的模式是正在研究的真实空间过程产生的结果还是仅为随机产生的结果。这就是研究人员和分析人员使用“查找热点”(Getis-Ord Gi*) 之类的统计方法来量化空间模式的原因。在数据中找到具有统计显著性的聚类时,您会获得非常有价值的信息。了解聚类发生的地点与时间可对您观察到的模式的形成过程提供重要线索。例如,如果需要制定有效的预防手段、分配有限的警力、发起小区监督计划、授权深入的刑事调查或者识别潜在嫌疑人,则掌握相关小区持续高发的入室盗窃信息就十分重要。
1 分析面要素
许多数据可用于人口普查区、县、选民区、医院区、宗地、公园和娱乐边界、流域、土地覆盖分类以及气候带等面要素。当分析图层包括面要素时,需要指定用于查找高值和低值聚类的数字字段。该字段可用于表示:
- 计数(如家庭数)
- 比率(如拥有大学学位的人口比例)
- 平均值(如平均家庭收入或家庭收入中位数)
- 指数(如指明家庭在体育用品方面的开销是高于还是低于全国平均水平的得分)
“查找热点”工具将使用所提供的字段创建一个地图(结果图层),用以显示包含具有统计显著性的高值(热点:红色)聚类和低值(冷点:蓝色)聚类的区域。这种分析可帮助您解答多种问题:
哪些区域的服务具有最佳访问性和最差访问性?
例如,基于儿童和儿科医生的数量,可确定儿科医生服务具有较好和较差访问性的区域。该信息有助于促成直接激励计划,以便为医生缺乏的地区招聘儿科专业的医师。您可为该分析创建一个变量,反映可为每个儿童分配的儿科医生数量。随后可对这些比率运行“查找热点”,以查找高比率(热点表示好的访问性)和低比率(冷点表示较差的访问性)统计显著性聚类。
哪些地方的特定类型事件在所有事件中的比例高于预期?
假设县消防员们正在为日益严重的厨房失火问题而担心。您可以助其一臂之力。首先,计算用研究区域中每个邻域(如人口普查区)的厨房火灾次数除以其他住宅火灾次数的结果。接下来,对这些比率运行“查找热点”来查找厨房火灾数(热点)超过预期的社区。准备的食物种类以及特定的烹调方法可能使某些社区相比其他社区更容易发生厨房火灾。在这些高风险区域策略性地放置广告或教育材料可能会防止火灾隐患。
哪里的从属关系最强或最弱?
例如,您可能想知道哪些区域对某一特定的政党、候选人或投票具有最强或最弱的支持度。该信息可能对指导未来选举的竞选策略有所帮助。在下方的地图中,红色区域是共和党票数远高于民主党的统计显著性聚类;蓝色区域则是强烈支持民主党的统计显著性聚类。该地图是通过从共和党的得票率减去民主党的得票率,然后对这些差异运行“查找热点”创建而成的。
2 分析点要素
有多种数据可用作点要素。最常表示为点的要素示例包括犯罪事件、学校、医院、紧急呼叫事件、交通事故、水井、树和船只。有时您会对分析与每个点要素相关的数据值(字段)感兴趣。在其他情况下,您只对评估这些点本身的聚类感兴趣。是否提供字段的决定取决于要提出的问题。
2.1 找出与点要素相关的高值和低值的聚类
可以提供分析字段来解答如下问题:高值和低值会聚集在哪里? 所选的字段可代表:
- 计数(如街道十字路口处发生的交通事故数)
- 比率(如城市失业率,各城市以点要素表示)
- 平均值(如学校间数学测验的平均得分)
- 指数(如国家汽车经销商的消费者满意度得分)
了解与点要素相关联的高值和低值发生空间聚类的位置可帮助您回答一些重要问题。例如:
哪里的资源充足,哪里的资源不足?
例如,对于灾害管理,了解医院床位的可用性趋势有助于为应急事件做准备和计划。如果点要素表示医院设施点,计算每天、每周、每月或每季度可用床位数的平均数,然后对这些平均值运行“查找热点”,将显示持续满员以及持续可用的医院区,同时可能揭示重要的的时间趋势。
另一示例可分析哪里对教师的需求最多。如果点要素为学校,且每个点与平均师生比相关,则应用于这些比例的“查找热点”将显示学区所缺少的教师和/或教室设施点。
哪些区域的顾客光顾情况最好和最差?
例如,如果一家购物中心的零售店表示为含有反映客流的分析字段的点要素,则“查找热点”可使您非常容易地确定购物中心哪些区域光顾的购物者最多,哪些区域光顾的购物者最少。
2.2 找出高点计数和低点计数的聚类
对于某些点数据来说,通常每个点代表一个事件、事故或存在/不存在的指示,不会有明确要使用的分析字段。在这些情况下,您只想知道聚类在何处(具有统计显著性的)异常密集或稀疏。对于此类分析而言,可将面要素(工具创建的渔网网格,或所提供的面图层)放置于点上,并计算每个区域中的点数。然后工具将发现与每个面要素相关的高点计数和低点计数的聚类。了解点计数的统计显著性聚类的位置将有助于解答如下许多问题:
哪里需要更多的资源?
如果每个点要素代表您所在城市的一个犯罪案件,对这些点运行“查找热点”工具可显示犯罪率最高和最低的区域。该信息有助于指导犯罪预防资源的分配。
哪些是优先区域?
通过反映森林中成熟树木的点数据,“查找热点”可揭示具有最高和最低树密度的区域,这些区域可成为林业管理人员的有价值的信息。
同样,如果每个点代表一棵遭到病虫害的树,使用“查找热点”确认问题最严重(热点)的区域可帮助识别需进行治理的优先区域。确定低病虫害发病率(冷点)区域可提供有关提高抵抗力的各种因素的线索。了解高或低病/虫害发病率的聚类具有统计显著性,可对促进或防范这些问题的基础因素提供有力证据。
包含一个或多个死亡人数的交通事故热点地图有助于划分安全提高项目的优先等级。
对房屋止赎权运行“查找热点”有助于确定最需要辅助程序的地方。查找止赎权数异常低的冷点,将提供关于房主弹性状况的线索。
针对这种分析类型(除非提供计数事件点的聚合区域),“查找热点”工具将构建渔网网格并在分析图层中将其放置于点上。然后,将计数并分析每个渔网方块内的点数。除非定义点可能存在的位置,否则只分析至少包含一个点的渔网方块。
结果图层中的所有具有统计显著性的热点(红色)都将使用带有高计数值的渔网方块来反映其空间聚类。类似地,具有统计显著性的冷点(蓝色)将使用计数值极低的渔网方块来反映空间聚类。注意:结果图层并不是一个密度表面,而是用于指示高点计数或低点计数因存在聚类而作为随机过程结果的地点。正在分析的点数据中可能没有具有统计显著性的聚类。
2.2.1 定义点可能存在的位置
在事件点要素可能发生的所有位置中指定区域图层或绘制区域,用于定义要执行分析的研究区域。对于此选项,“查找热点”工具使用渔网网格叠加定义的研究区域,并对每个渔网方块中的点进行计数。不使用该选项指明事件点可能存在的位置时,“查找热点”工具将仅分析至少包含一个点计数的渔网方块。但是,使用该选项定义可能存在点的位置时,将完成对所定义的边界区域中的所有渔网方块的分析。以下为指定分析边界特别有用的一些示例:
所提供边界内的问题区域在何处?
如果点数据代表申请港口协助的船只,则您需要提供可反映船只驶过的港口航道的边界区域。任何检测到的热点均反映具有异常高的协助申请的位置。了解到这些位置的存在可以推动调查,继而实施预防性措施。
其他情况:
- 销售欺诈行为只能发生在零售店营业的地方。找到欺诈事件发生次数极高的地点可以锁定潜在的嫌疑人。
- 房屋止赎权仅发生在有房屋的地点。找到止赎权热点可以识别出需要优先帮助的小区。
- 森林火灾仅发生在森林覆盖的区域,并且不会发生在大型水体中。该分析的任何具有统计显著性的热点或冷点都可以指导森林管理策略和实践。
2.2.2 在您自己的聚合面内计算点数
在某些情况下,与默认渔网网格相比,面要素(如人口普查区、警务区或宗地)对分析更有意义。以下是使用提供的面要素图层进行聚类的一些示例,这些聚类更有意义:
哪个管理报告区域反映高点或低点计数的具有统计显著性的聚类?
要查找城市中最需要石棉减排计划的区域,可以提供城市中人口普查区的区域图层,以叠加已标识室内存在石棉的点位置。
要深入了解流感病毒如何在一个国家内传播,可提供表示流感事件的邮政编码边界和点要素。通过每周分析新事件点,您将了解热点所在位置及其是否增长、缩减或移动。
2.2.3 选择除数
识别热点和冷点有两种常用方法:
- 通过计数 - 当分析某个特定数据集时,通常想要找到所研究区域的每个聚合面中要素数的热点和冷点。例如,您可能想找到犯罪发生次数最高的热点和犯罪发生次数最低的冷点以分配资源。
- 通过强度 - 另一方面,考虑影响特定现象基础分布的分析和理解模式也具有意义。这个概念通常称为归一化,即:一个数值属性值除以另一个数值属性值,以基于区域的大小或每个区域中的要素数量将差异最小化的过程。例如,对于犯罪,您可能想要了解考虑基础人口的存在高犯罪数和低犯罪数聚类的区域。在此情况下,需要计算每个区域中的犯罪数(不论该区域是渔网网格还是其他区域数据集),并且将总犯罪数除以该区域的总人口数。这将得到犯罪率或人均犯罪数。找到人均犯罪数的热点和冷点有助于从不同角度做出决策。
选择合适的除数属性十分重要。您需要确保除数的属性是实际上能影响您所研究的特定现象分布的属性。
合适的归一化示例:
- 止赎权数除以家庭总数
- 观察的麋鹿数除以总面积
- 各区域的总销售数除以客户数
- 失业人数除以年龄超过 16 的人口数
当选择除以 Esri 人口时,将使用来自 Esri Demographics Global Coverage 的人口数据。确保观察数据的分辨率可用于您感兴趣的区域,以确保它与正在丰富的区域(您所提供的聚合面或正在创建的渔网方块)的大小兼容。访问 Esri Demographics Global Coverage 获取可用于您分析中的有关各个国家的可用地理级别和人口年份数据的详细信息。
3 分析结果
“查找热点”工具的输出结果是地图。对于该结果图层地图中的点或区域,红色或蓝色显示越深,越能说明聚类不是随机产生的结果。另一方面,使用米黄色显示的点或区域并不属于任何具有统计显著性聚类;与这些要素相关联的空间模式很有可能是随机产生的结果。有时,分析结果会指出不存在任何具有统计显著性的聚类。这是非常重要的信息。空间模式为随机时,我们将无法了解根本原因。对于这些情况,结果图层中的所有要素将以米黄色显示。但是,当确实找到具有统计显著性的聚类时,聚类发生的位置将是有关创建聚类原因的重要线索。例如,查找与特定环境毒素相关的癌症的具有统计显著性的空间聚类,可以促成用于保护人民的政策和行动。同样,查找与学校所提倡课外体育计划相关的儿童肥胖冷点,可为更广泛地鼓励这些种类的计划提供强有力的证明。
4 疑难解答
“查找热点”工具使用的统计方法以概率论为基础,因此,需要限制最小要素数目以进行有效操作。该统计方法还需要各种计数或分析字段值。例如,如果您按人口普查区分析犯罪事件,却意外发现每个区域中都有相同的犯罪事件数,则工具无法进行分析。以下是使用“查找热点”工具时可能遇到的消息的说明:
消息 | 问题 | 解决方案 |
---|---|---|
所选的分析选项最少需要 60 个点以计算热点和冷点。 | 您的点分析图层中没有足够用于计算可靠结果的点要素。 | 显而易见的解决方案是向分析图层中添加更多点。 此外,您也可以尝试定义边界分析区域,从而添加本应该出现但并未出现的相关点的位置信息。使用该方法您最少需要 30 个点。 还可以尝试提供可叠加点的聚合区域。要执行该分析,这些区域内最少需要 30 个多边形区域和 30 个点。 如果您有至少 30 个点,您可能需要指定分析字段。问题将从哪些位置具有很多或很少的点变为高和低分析字段值在哪些位置进行空间聚类。 |
所选的分析选项最少需要 30 个点,其中分析字段中包含有效数据,以计算热点和冷点。 | 分析图层中没有足够的点或与非空分析字段值相关联的点用于计算可靠结果。 | 遗憾的是,如果少于 30 个点,则该分析方法将不适用于您的数据。如果多于 30 个点并看到此消息,指定的分析字段的值可能为 NULL。将跳过具有 NULL 分析字段值的点。另一种可能是,存在减少用于分析的点数的活动过滤器。 |
所选的分析选项最少需要 30 个面,其中分析字段中包含有效数据,以计算热点和冷点。 | 分析图层中没有足够的多边形区域或与非空分析字段值相关联的区域要素用于计算可靠结果。 | 遗憾的是,如果少于 30 个面区域,则该分析方法将不适用于您的数据。如果多于 30 个区域并看到此消息,指定的分析字段的值可能为 NULL。将跳过具有 NULL 分析字段值的面区域。另一种可能是,存在减少用于分析的多边形区域数的活动过滤器。 |
所选的分析选项最少需要 30 个点位于边界面区域中。 | 将仅分析您所绘制或提供的边界分析区域内的点。为提供可靠的结果,边界分析区域中应至少包含 30 个点。 | 遗憾的是,如果点数没有达到 30 个,则该方法不适用于您的数据。然而,即使至少拥有 30 个点,该解决方案通常还是提供不同,或许更大的边界分析区域。 另一种方案为提供最少具有 30 个聚合面的面图层,这些聚合面至少叠加 30 个点。提供聚合区域后,将在每个区域中执行点计数分析。 |
所选的分析选项最少需要 30 个点位于聚合面中。 | 将仅在分析中包含聚合面中的点。为了提供可靠的结果,提供的多边形区域中应至少包含 30 个点。 | 遗憾的是,如果点数没有达到 30 个,则该方法不适用于您的数据;否则,应绘制或提供至少叠加 30 个点的边界分析区域。边界区域应反映所有可能出现点的位置。 |
所选的分析选项需要至少 30 个聚合区域。 | 所选的选项将叠加点上方的聚合区域,然后计算每个区域内的点数。至少需要 30 个计数(30 个区域),才能得出可靠的结果。 | 如果可提供至少 30 个聚合区域中的至少 30 个点,则可以计算出可靠结果。如果没有 30 个聚合区域,您可尝试绘制或提供至少叠加 30 个点的边界分析区域。这些边界区域应反映所有可能出现点的位置。 |
如果每个面区域中的点数相同,则无法计算热点和冷点。请尝试其他多边形区域或分析选项。 | “查找热点”工具计算每个聚合区域中的点数时,发现所有计数都相同。要计算结果,该工具至少需要所获取的计数值具有差异。 | 可提供其他不会导致所有区域中都包含完全相同点数的聚合区域。 除了聚合区域之外,您也可以尝试绘制或提供边界分析区域。 此外,还可以指定分析字段。但是,问题将从哪些位置具有很多或很少的点变为高和低分析字段值在哪些位置进行空间聚类。 |
点的位置没有足够的差异来计算热点和冷点。例如,重合点会减少空间差异。您可尝试提供边界区域、聚合区域(最少 30 个)或分析字段。 | 基于点数及其分布方式,工具将创建渔网网格以叠加点。计算每个渔网方块中的点数并移除计数为零的方块后,只剩不到 30 个方块。该工具需要至少 30 个计数(30 个方块),才能提供可靠结果。 | 如果点仅占据很少的唯一位置(如果有多个重合点),则优秀的解决方案为提供可叠加点的聚合区域,或绘制并提供指明点可能或不可能出现的位置的边界分析区域。 另一种方案为指定分析字段。但是,问题将从哪些位置具有很多或很少的点变为高和低分析字段值在哪些位置进行空间聚类。 |
边界面区域中的点之间没有足够的差异。可尝试提供更大的边界。 | 基于点位置和点数,工具将创建渔网网格以叠加点。计算每个渔网方块中的点数并移除边界分析区域之外的方块后,只剩下不到 30 个方块。该工具需要至少 30 个计数(30 个方块),才能提供可靠结果。 | 如果点位于边界分析区域中的多个位置,您只需创建或提供更大的边界。如果点仅占据很少的唯一位置(如果有多个重合点),则比较好的解决方案为提供可叠加点的聚合区域。 另一种方案为指定分析字段。但是,问题将从哪些位置具有很多或很少的点变为高和低分析字段值在哪些位置进行空间聚类。 |
分析字段中的所有值可能均相同。如果要分析的字段中没有差异,则无法计算热点和冷点。 | 您很可能在分析图层中指定了所有点要素或面要素均具有相同值的分析字段。如果没有多种值可用,则此工具使用的统计数据无法进行分析。 | |
无法为所提供的数据计算热点和冷点。如果可行,请尝试指定分析字段。 | 工具创建渔网网格并计算每个方块中的点数时,所有方块的计数相同,但这种可能性不大。 |
有关“查找热点”工具所采用算法的其他信息,请参阅热点分析工作原理。