DCIM 告警收敛机制与故障恢复知识库构建研究
时间:2025-12-09 作者:冀宏韬,胡代博,赵玉伟,王鹏,战若晴
【摘要】传统 DCIM 系统通过配置阈值或者条件,监控指标达到阈值或者满足特定条件后自动触发 / 生成告警。而在设备多、监控范围大的使用场景下,监控系统可能会产生海量告警,常会出现故障期间告警风暴,手机 / 邮箱会被海量告警淹没,运维人员很难从众多告警中筛选出重要告警,从而容易忽略重要告警,因此,一旦出现告警风暴,告警本身也就失去了意义和价值。鉴于此,研究一套告警收敛技术,在保证所有重要告警成功报出的前提下,尽量减少重复、无意义的告警;自动 / 手动梳理、推断出告警之间的因果关系,生成知识图谱帮助用户防范告警风暴,让运维人员专注于有效告警。
关键词:基础设施监控;DCIM;告警风暴;AI 智能告警;知识图谱