我院研发效能实验室荣国平课题组在服务可观测性和AIOps研究方面取得重要进展

发布日期:2022-06-02 浏览次数:

对于许多拥有大量用户的在线系统而言,保持服务健康并持续稳定地提供服务对业务至关重要。值得注意的是,这类系统往往规模庞大、用户众多并且分布部署,这使得服务异常原因的排查成为巨大挑战。为了解决这个问题,当前几乎所有提供互联网业务的公司都会引入各种APM工具来监控服务的请求调用、服务运行状态、硬件状态等,但是仅仅记录数据并不意味着服务异常以及背后根因的就会自动暴露,实践中,通过算法和人工排查结合的方式处理指标值异常仍然是主流的方式。

 

 

我院研发效能实验室荣国平课题组与美团公司合作,基于该公司实际场景,面向服务访问的成功率指标提出了ImpAPtr算法,可以有效识别出服务异常对应的多维度根因线索,其准确性和时效性均显著优于领域SOTA,相关工作发表在软件可靠性领域顶级会议ISSRE2020上。在此基础上,课题组进一步探索异常根因线索在时间维度上的变化,并据此重新设计了ImpAPtr+算法,将“设定阈值-识别异常-探索根因”的被动式过程变为“定期规划-识别异常-健康度维持”主动式过程,从而提供了对服务健康度的准实时诊断和保障。与同类型SOTA算法比较,在可接受的处理时间内,准确性有了显著的提升。


 

目前,该工作以论文《Locating Anomaly Clues for Atypical Anomalous Services: An Industrial Exploration》被《IEEE Transactions on Dependable and Secure Computing》(简称TDSC)录用。TDSC是计算机及网络安全、可信计算等研究领域顶级刊物,属于中国计算机学会(CCF)推荐的A类期刊。

另:课题组目前正在招新,对DevOps、云原生可观测性、AIOps、智能软件工程技术等感兴趣的同学,可以联系 ronggp@nju.edu.cn