研发效能实验室荣国平老师团队在大语言模型赋能软件工程领域取得新进展

发布日期:2024-07-04 浏览次数:


依托与中兴公司的合作研究项目,我院软件研发效能实验室荣国平老师带领于永达(21级直博生)、刘凇(23级专硕生)、谭馨(23级专硕生)、张天翼(23级专硕生)等同学敏锐地注意到当前各类代码仓库中存在的代码与相应注释的不一致问题(Code Comment Inconsistency,CCI Issue)以及由此带来的各类负面影响。团队利用当前大语言模型强大的语义理解能力,创新地提出了一种代码注释不一致性问题的检测和修复方法,并在Post-hoc和Just-in-time两个应用模式中均取得SOTA结果。


图1 研究框架图


当前各类代码中普遍使用注释机制以提供理解代码所需的必要信息。但广为存在的注释内容与其对应的代码片段并不一致的问题不仅不利于对代码的理解,更会对软件的开发、测试和维护等下游任务产生负面影响。甚至,由于在训练语料中这类问题同样广泛存在,极可能对目前各类代码大模型的性能造成负面影响。为了解决这一问题,研究团队基于开源大语言模型,设计了一个有针对性的损失函数对大模型进行微调,使最终的开源大模型拥有更好的代码注释一致性问题的检测性能,同时在发现不一致问题之后,能够自动修复不一致的注释。


为了验证方法的效果,研究团队在被广泛认可的公开数据集上验证了算法的有效性,并在Post-hoc和Just-in-time两个模式中的不一致问题发现和修复任务上均达到了SOTA效果。为了避免基于传统文本相似性的度量无法刻画对文本语义(包括代码和注释)的理解程度,研究团队还引入了人工评估来衡量本文算法暨微调后的大模型在CCI Issue修复任务上的表现,进一步佐证了算法的有效性。


目前该项研究成果已经被软件工程学科国际顶级旗舰会议 the 47th IEEE/ACM International Conference on Software Engineering ( ICSE 2025,CCF-A类 )录用,论文标题为 " Code Comment Inconsistency Detection and Rectification Using a Large Language Model " ,第一作者单位和通讯作者单位均为南京大学。


荣国平老师团队目前专注于应用大语言模型解决软件工程领域各类问题的研究和探索,欢迎感兴趣的老师和同学来交流,请联系 ronggp@nju.edu.cn.