安全漏洞在软件开发和维护过程中是不可避免的。随着现代软件系统规模不断增大以及复杂性不断增加,安全漏洞的数量极速增长,影响范围不断扩大,对一些安全攸关软件,例如工业控制软件等带来极大挑战。开发人员需要耗费大量的时间和资源去修复发现的程序漏洞,这使得发现漏洞与修复漏洞之间出现了时间差,而这可能将软件系统暴露在大量可能的攻击风险之下。大语言模型在自然语言处理领域和代码相关任务上取得了显著的成果,彰显了大模型在软件调试和修复上的潜力。但是,目前尚缺少现有大模型在程序漏洞修复性能上的系统化比较,各个模型的优缺点尚不清晰。
为了解决上述问题,iSE实验室房春荣老师指导博士生张犬俊,首次通过大规模实验探索了大模型在安全漏洞修复方面的实际表现。结果表明,所研究的基于大模型的补丁生成准确率均优于当前最先进的程序漏洞修复技术。同时,本研究分析了在修复流程中不同组件对于修复效果的影响,例如数据预处理,模型训练和补丁预测。基于上述实验,本研究提出了一种基于迁移学习技术的程序漏洞修复方法,可以进一步显著提高现有的大模型程序漏洞修复准确率。此外,本研究还从不同方面探讨了基于预训练模型的程序漏洞修复技术的有效性和局限性,例如漏洞CWE类型以及大语言模型使用的代码表示。最后,本研究为未来的研究工作提供了一些实践指导,以进一步提高基于预训练模型的程序漏洞修复技术的表现。
该研究深入探索了大语言模型在安全漏洞修复领域的问题,展示了大模型在安全漏洞修复上的广阔前景,可以有效地帮助安全专家快速生成漏洞补丁,降低攻击风险,对安全漏洞防护具有重要意义,值得后续研究人员的持续关注。。该工作相关研究成果《Pre-trained Model-based Automated Software Vulnerability Repair: How Far are We?》已被网络与信息安全领域顶级国际期刊 IEEE Transactions on Dependable and Secure Computing(TDSC, CCF-A类期刊)全文录用,南京大学为唯一单位。
张犬俊同学由陈振宇教授和房春荣助理研究员共同指导,其主要研究方向包括智能软件测试和自动程序修复,研究成果先后全文发表在ISSTA、ICSE、ACL、TSE、ASE、TDSC等权威国际学术期刊和会议。