iSE 实验室刘佳玮在深度学习算子测试方面取得新进展

发布日期:2025-01-09 浏览次数:


作为人工智能软件中举足轻重的重要架构,卷积神经网络在自动驾驶、医疗诊断等多个领域展现了卓越的性能。通过使用卷积算子对图像等高维张量进行多层次的特征提取与处理,卷积神经网络依靠其强大的计算能力与对多维输入的特征学习能力,成为推动深度学习技术应用的核心力量。然而,卷积算子内部涉及到的海量浮点数近似计算不可避免地会导致大量浮点数精度问题,这些问题在智能软件中尤其危险,特别是在医疗诊断等安全性要求极高的领域,可能引发误诊,甚至危及生命,解决浮点数精度问题对于保障智能软件质量至关重要。与传统软件中的精度问题不同,卷积算子的浮点数精度问题往往由浮点数误差的累积和多样化的输入张量引发,而非代码错误。即使是完全正确的神经网络代码,在处理某些特殊浮点数时也可能出现累积的精度问题。因此,如何从浮点数输入的角度有效检测并修复这些问题,成为保障卷积算子稳定性和性能的关键问题。



为了解决上述问题,iSE 实验室面向卷积算子,提出了第一个从浮点张量视角出发的精度问题检测与修复方法,克服了传统方法对代码层面修复的局限性。该方法深入挖掘了卷积运算导致精度问题的关键计算特性,利用浮点数张量输入的特征设计了两类变异规则,即计算级变异和输入级变异,从而生成多样化浮点数张量以暴露卷积运算中潜在的精度问题。同时,研究采用了基于等价运算重构的修复方法,通过挖掘复杂浮点运算的数学等价形式,将原始的复杂卷积运算分解为多个数值更稳定的等价子运算,从而有效降低误差积累的风险。该方法结合浮点张量特性,对问题浮点数进行精准变换,确保修复过程既能消除精度问题,又不破坏原始计算逻辑。与传统代码修复方法不同,本文方法从数据层面优化运算稳定性,显著提升了卷积算子在高计算量场景下的精度和鲁棒性,为深度学习框架的数值优化提供了全新思路。


该研究突破了传统代码修复的局限,为人工智能领域的大规模算子优化提供了方法论支持,填补了高计算量场景中数值稳定性研究的空白,对推动深度学习框架的下一代发展具有里程碑式的意义,值得人工智能和软件工程领域研究人员的持续关注。该工作相关研究成果《 Automated Detection and Repair of Floating-point Precision Problems in Convolutional Neural Network Operators 》已被软件工程领域顶级国际期刊 ACM Transactions on Software Engineering and Methodology( TOSEM , CCF - A类期刊 )全文录用,南京大学为第一单位。


该研究由南京大学与华为海思麒麟联合提出,融合学术研究的创新性与工业应用的实用性,确保了研究成果在实际一线软件开发中的可用性。此外,该研究立足于自主可控的智能测试技术,推动了智能测试在深度学习领域的应用发展,对人工智能软件的国产化和自主创新具有重要意义,值得学术界与工业界的持续关注。