智能化源码警告识别是改善源码静态扫描工具可用性的最有效的方法之一,这些方法主要聚焦于警告特征挖掘和识别模型构建,而忽略了警告数据集的潜在分布对警告识别性能的影响。源码警告基准数据集是分析警告数据分布特性的基础。然而,当前领域仍然缺乏一个大规模的且足够可靠的警告数据集。
为推动智能化源码警告识别领域的未来发展,iSE 实验室博士生葛修婷提出了一种基于人机协同的源码警告基准数据集构建方法,该方法从机器角度出发,利用启发式警告标记算法自动为警告赋予初始标签,并从人类角度出发,引入人工审查和验证延迟后处理初始标记的警告标签,进而获得足够可靠的警告标签。在 10 个大规模真实项目所涉及到的 25K+个修订和 2087K+个 SpotBugs 警告上,该方法收集到 11975 个唯一的且标签足够可靠的警告基准数据集。在此基础上,从类别、类型、优先级、置信度、所在文件和函数等六个不同的警告属性出发系统分析了警告数据的分布情况并总结了 16 个发现。通过初步的实验评估发现,警告数据分布特性对于增强智能化源码警告识别方法是具有实用性和指导意义。
上述研究的相关成果《 A Large-Scale Empirical Study of Actionable Warning Distribution within Projects 》已被国际学术期刊《 IEEE Transactions on Dependable and Secure Computing 》(TDSC,CCF-A)录用。
葛修婷同学由赵志宏教授和房春荣副教授共同指导,其主要研究方向为智能化源码警告识别,以第一作者在 CSUR、TSE、TDSC、SCIS、IST、TRel 等软件工程权威学术期刊发表论文,研究成果已经在中船重工、广东软件园和南瑞集团等得到初步应用。