与传统的代码驱动软件相比,智能软件系统采用数据驱动的编程范式,因此数据质量与数据安全性从根本上影响甚至决定了智能软件系统的性能与安全。数据集的收集及标注过程中存在的潜在缺陷会被依赖于其训练的深度神经网络模型学习,进而被智能软件系统继承,并最终造成重大的生命财产损失。因此,保证数据集的安全可靠是智能软件系统的一个重要任务。
针对这一挑战,该论文面向智能软件系统提出了一个全新的软件工程任务,即数据缺陷定位(Data Fault Localization)。为了对智能软件所使用的标注数据集进行缺陷定位,DFauLo创新性的提出了一种面向深度神经网络 (DNN) 的动态数据缺陷定位技术。首先,DFauLo借鉴了基于变异的代码缺陷定位技术,通过对DNN模型设计变异策略进行变异,提取每个数据用例的有效缺陷特征;然后,其基于缺陷特征构建怀疑度模型,并为每个数据样本计算相应的怀疑度得分。由于现实场景中数据缺陷的表现形式多样,DFauLo设计了一种动态的模型迭代策略,实现了基于人工反馈信息的自适应怀疑度模型调整。实验结果表明,DFauLo对于文本、图像等多种数据格式的、具有不同分布和表现形式的数据缺陷具有优秀的缺陷定位效果;在真实数据缺陷定位场景中,DFauLo实现了相较于随机检查30倍以上的效率提升。
iSE实验室尹伊宁提出了一种面向深度学习系统的数据缺陷定位技术DFauLo,该工作相关论文《Dynamic Data Fault Localization for Deep Neural Networks》被软件工程领域国际顶级会议FSE 2023(CCF A类会议)录用。作为一种数据为中心 (Data-Centric) 的测试方法,DFauLo可应用于多种数据格式及任务类型的数据质量评估及保障任务,并帮助开发者构建更可靠的智能模型系统。该工作由冯洋、赵志宏等共同指导下完成。