Skip To Content

监控 ArcGIS Enterprise

通过主动监控您的 ArcGIS Enterprise 组织,您可以稳定系统正常运行时间、识别服务性能问题或中断,并主动调整跨参与计算机分配的资源以运行基础应用程序。 监控解决方案可以为常用端点提供主动检查,并在响应位于预期容差范围之外时向对应的联系人发出警告。 此外,您可以使用这些解决方案来采集历史信息,并将这些信息用于在根本原因分析或事后调查期间确证系统和软件日志。

虽然您可以使用 ArcGIS Monitor 来监控您的 ArcGIS Enterprise 组织,但还有一些第三方工具可以帮助您获得类似的结果。 以下信息可以帮助您初步了解如何将监控解决方案与 ArcGIS Enterprise 进行集成。

监控指标

一般来说,可以从以下两个角度来监控企业级应用程序:资源利用率和用户体验。

资源利用率对于系统管理人员来说是一个熟悉的概念,原因是它与计算机集合以及运行企业级软件的支持基础设施的各种特征紧密相关。 这些指标通常与访问平台的用户量成正比,但某些工作流也可能导致利用率显著飙升。

此外,用户体验监控通常可以反映客户端如何与前端应用程序进行连接和交互,并且对于业务分析师和 GIS 管理员来说更为熟悉。 这些指标可用于确定各种请求的基线响应时间,以便随后将其用于建立应向管理团队发出警报的阈值。 除了响应时间之外,还需要考虑其他一些方面的用户体验,例如 SSL 证书有效期。

以下小节描述了如何从资源利用率的角度对系统进行监控。

资源利用率

从资源利用率的角度监控 ArcGIS Enterprise 部署中的计算机时,需要追踪的指标如下:

  • 处理器 - 当参与计算机的处理器达到峰值或达到 100% 容量时,计算请求将会积压,而这可能会导致信息返回延迟。 该指标适用于活动突然增多时一切正在运行的进程。
  • 物理内存 - 当物理内存接近 100% 利用率时,正在运行的进程可能会在其尝试扩展到额外的内存空间时崩溃。 虚拟内存的存在可以缓解这种状况。
  • 虚拟内存 - 虚拟内存能够在计算机的物理内存和基础存储之间提供一个缓冲区。 它可使用部分基础存储来交换物理内存中的数据,同时使该操作比直接从磁盘进行加载更容易完成。 由于虚拟内存耗尽而导致的不利影响在 Linux 系统中不太常见;但是,监控交换使用情况也很重要。
  • 已提交内存 - 系统已提交的内存容量是计算机的物理内存与给定时间点的虚拟内存大小的总和。 虚拟内存可以增长,因此已提交内存限制会随着时间的推移而改变。 计算机的已提交内存利用率接近 100% 表明物理和虚拟内存都已耗尽,需要更多资源。
  • 磁盘卷可用空间 - 系统上的系统卷、应用程序卷或数据卷出现磁盘空间不足可能会严重影响正在运行的操作系统以及依赖于这些卷的任何应用程序。 监控可用空间可确保系统磁盘空间不会耗尽,并可确定已用空间显著增加(这可能是异常发布事件的征兆)的时机。

在监控系统时,请记住虽然网络瓶颈在企业级网络环境中变得越来越少,但它会影响 ArcGIS Enterprise 组件的最佳响应时间。 在所有 ArcGIS Enterprise 组件与其他注册数据源和文件服务之间交换多个内部请求的多机环境中,出现这一情况的可能性正变得越来越大。

如果可能,请将处理器和内存划分为每个进程的列表,以确定在给定时间内哪个进程处于峰值。 例如,在监控中使用这种粒度级别时,进程的命令行部分可用于将 ArcGIS Enterprise 内部组件彼此区分开来,或者将其与实时防病毒扫描区分开来。

不仅需要监控安装了 ArcGIS Enterprise 组件的计算机,而且需要监控部署可能依赖于其正常运行的任何文件服务器和数据库实例。 ArcGIS Enterprise 应用程序通常会从其最低的资源消耗水平开始运行。 当应用程序被访问和使用时,其资源消耗将与资源利用率成正比。

采集资源指标

虽然默认情况下该指标并未包含在大多数基础 Linux 发行版中,但有许多软件包允许查询和采集计算机资源指标。 请通过将部署中的所有计算机添加为所选软件的计数器,至少采集上一部分中提到过的资源利用率指标。 当服务质量下降或中断时,您可以增加轮询频率,以进一步了解出现中断状况之前的进程和事件。

分析资源指标

您在选择了采集工具并为您的计算机捕获了资源利用率数据之后,就可以分析资源指标。 分析资源指标时请考虑以下事项:

  • 问题的生命期 - 了解该事件是孤立事件还是长期事件将有助于您确定大多数情况下的最佳前进方向。 资源利用率的短期峰值往往会随着特定服务(例如添加新发布的仪表盘或 Web 应用程序,或是将部门添加到门户)的即时需求而出现。 当前利用率出现长期增长可能表明该平台及其相关服务或应用程序越来越受欢迎。 短期峰值可能会也可能不会重复出现,因此围绕这些事件的上下文对于确定是否需要额外资源来提高部署的长期稳定性而言非常重要。
  • 消耗系统大部分资源的进程 - 从 Portal for ArcGISArcGIS Data Store 的角度来看,利用率应该与平台上的用户数量和托管服务的使用量大致呈线性关系。 在考虑 ArcGIS Server 时,专用服务的扩展和托管服务的使用是与资源利用率相关的两个主要因素。 可以在 ArcGIS Server 站点中调整专用服务以降低整体资源利用率,但是当需求随着时间的推移达到峰值时,这可能还不够。
  • 角色分布 - 在 ArcGIS Enterprise 部署中跨多台计算机分布角色时允许对每个组件进行更仔细的资源调整,并可以在出现问题时提高理解粒度。 只为关系数据存储或托管服务器计算机增加资源可能比为基于单机的企业级部署增加资源更具战略意义。 您可以通过加入站点操作对当前站点架构进行调整,从而在已建立的部署中从单机迁移到分布式架构。

解决问题

现在您可以识别、追踪和分析计算机资源指标,因此您可以解决非预期系统响应的问题。 这可能意味着需要增加所分配的处理器资源、分配或安装更多 RAM 或增加磁盘空间。 在采取行动之前,您必须了解解决资源利用率问题的最佳做法。

处理器利用率

在为处理器利用率较高的计算机增加所分配的处理器资源之前,请确定是 ArcGIS Enterprise 组件还是系统上的其他软件导致了利用率出现峰值。 启用实时扫描的安全软件可以提高常规 Web 服务器和数据库运行期间的处理器利用率。 如果是这种情况,请根据所观察到的行为提醒您的网络安全团队。 对于虚拟机,底层主机可能会被过度配置,这可能导致出现虚拟机无法检测到的性能瓶颈。

物理内存利用率

当物理内存利用率接近 100% 时,计算机可能需要分配或安装更多 RAM。 如上所述,在专用计算机上分离工作负载可以实现更精细的资源分配并减少当前的资源争用,而您也可以增加现有计算机上的内存。 当物理内存利用率接近 100% 时,可用的虚拟内存也可能会耗尽。

虚拟和已提交内存利用率

当达到 100% 的利用率时,虚拟和已提交内存利用率通常会展现出相同的模式。 虚拟内存允许进程使用比系统上可用的内存更多的内存,并且除非由负责已配置计算机的系统管理员进行静态设置,否则通常会自动缩放到阈值。 如果有足够的磁盘空间来扩展页面文件,则您可以通过修改系统设置来增加虚拟内存。

磁盘卷可用空间

磁盘空间耗尽是 ArcGIS Enterprise 部署中可能出现的最不可预测的故障方式之一。 当尝试更新未完成时,文件可能会被清空或截断,而这可能会阻止软件正常启动。 首先,请搜索可以移动到注册数据存储或其他位置的大型文件。 如果您无法移除不需要的文件,则必须增加磁盘空间。 您还可以将系统目录迁移到单独的存储位置,例如 Portal for ArcGIS 站点的内容目录ArcGIS Server缓存目录

注:

要按大小(以字节为单位)查看指定目录 <目录> 的前 25 个文件,请运行以下命令:

sudo find <directory> -type f -printf '%s %p\n' | sort -nr | head -25

在根卷上运行可能需要花费很长时间,因此建议您在该命令中指定一个子目录。