南南合作共同推动代码语言模型安全研究

发布日期:2025-01-24 浏览次数:


代码语言模型的广泛应用在许多软件工程任务上取得了显著的效果,同时其安全性问题也带来了前所未有的挑战。例如,近期多项研究表明,代码语言模型易受代码数据或模型投毒攻击的威胁。攻击者通过在数据样本中注入隐蔽的后门触发器,并设计特定的攻击行为,生成中毒样本。使用这些中毒样本训练的代码语言模型会被植入后门,从而使攻击者能够通过触发器精确控制模型的行为,带来严重的潜在安全隐患。


针对这一问题,南京大学 iSE 实验室博士生陈宇琛与南洋理工大学研究员孙伟松创新性地提出了两种代码语言模型后门防御方法,分别聚焦于代码语言模型的训练前防御和训练后防御,为提升模型安全性提供了有效的解决方案。



针对代码语言模型的训练前防御,他们提出了一种名为 KillBadCode 的轻量级代码投毒样本检测技术。研究发现,代码投毒所注入的触发器会显著破坏代码数据集的自然性。KillBadCode 利用这一洞察,通过识别代码中被植入的触发器标记,并删除所有包含这些触发器的代码样本,从而有效地保障模型训练数据的安全性。



针对代码语言模型的训练后防御,他们提出了一种名为 EliBadCode 的后门检测与消除框架。EliBadCode 通过触发器的逆向工程与模型遗忘技术,实现了对代码语言模型后门的彻底消除。该技术不仅大幅降低了后门攻击的成功率,同时在不影响模型正常功能的前提下,显著提升了代码语言模型的安全性与可靠性,为保障代码语言模型的安全性提供了强有力的解决方案。


上述研究的相关成果《 Show Me Your Code! Kill Code Poisoning : A Lightweight Method Based on Code Naturalness 》和《 Eliminating Backdoors in Neural Code Models for Secure Code Understanding 》分别被软件工程领域国际会议 ICSE 2025(CCF-A)和 FSE 2025(CCF-A)全文录用


南京大学陈振宇教授团队与南洋理工大学刘杨教授团队强强联手,长期合作。不仅彰显了两校在人工智能与软件工程领域的卓越科研实力,更为全球范围内的大模型安全研究树立了新的标杆,激励更多国际间的学术交流与技术创新,共同应对新兴技术发展带来的安全挑战,为打造更加安全可靠的人工智能和可信软件工程提供重要支撑。