近年来,代码语言模型( Language Models for Code,简称 CodeLMs )逐渐成为推动智能化软件开发的关键技术,应用场景涵盖智能理解、代码生成与补全、漏洞检测与修复等。CodeLMs 降低了开发门槛,提升了企业项目开发效率,也使得更多人有能力参与到开源项目中,丰富了开源社区的人才资源,推动了开源项目的多元化发展。然而,随着 CodeLMs 的广泛应用,各种安全问题也逐渐显现。
CodeLMs 同样面临着后门攻击和对抗攻击等安全威胁,安全性正受到严峻挑战。例如,受攻击的 CodeLMs 可能会生成具有隐藏安全漏洞的代码,一旦这些不安全代码被集成到开发者的软件系统中,可能导致严重的财产损失甚至危及生命的事故。鉴于 CodeLMs 对智能化软件开发和智能软件系统的深远影响,保障其安全性至关重要。CodeLMs 安全性正成为软件工程、人工智能和网络安全领域的研究新热潮。
南京大学 iSE 实验室博士生陈宇琛、葛一飞、韩廷旭联合南洋理工大学 CSL 实验室孙伟松和陈震鹏共同对 67 篇 CodeLMs 安全性研究相关文献进行了系统性梳理和解读,分别从攻击和防御两个视角全面展现了 CodeLMs 安全性研究的最新进展。同时,该综述回顾了相关文献中常用的实验设置,包括数据集、语言模型、评估指标和实验工具的可获取性。在总结现有成果的基础上,研究进一步展望了 CodeLMs 安全性研究的未来发展机遇,明确指出未来的重点攻坚方向,包括:更加隐蔽且高效的攻击方式,兼顾模型性能与防御效果的防御机制,攻击/防御策略的可解释性分析,跨任务多场景下的泛化防御技术,以及适应大模型时代的代码模型性安全探索与防御技术。
该研究不仅为学术界提供了一个系统性的研究框架和清晰的研究路线图,也为后续工业界在模型安全性评估、攻击防御机制设计及基准构建等方面提供了重要参考。对于工业界的开发者与安全工程师,该研究提出了具有实用价值的防御策略和技术建议,可有效帮助其在实际系统部署中识别并缓解由代码生成模型引发的安全风险。
该研究成果《 Security of Language Models for Code: A Systematic Literature Review 》已被软件工程领域顶级国际期刊 ACM Transactions on Software Engineering and Methodology( TOSEM,CCF-A类期刊 )全文录用,南京大学为第一单位。南京大学陈振宇教授团队与南洋理工大学刘杨教授团队再次联手,汇聚科研力量,为全球大模型安全研究注入新动能,提升智能化软件开发可靠性与安全性,助力新一代开源开放创新服务平台构建与生态发展。