iSE实验室博士生张犬俊在机器翻译测试方面取得新进展

发布日期:2024-01-02 浏览次数:


机器翻译旨在将源语言的文本描述自动翻译成目标语言文本,是人工智能技术的重要应用目标,具有极高的科学研究价值。近些年随着深度学习的发展,神经机器翻译模型取得了长足进步并进行了商业部署,如谷歌翻译、必应翻译、百度翻译、腾讯翻译等。这些翻译模型每天服务全球数亿用户,实时有效地在数千种语言之间进行翻译,在促进社会政治、经济、文化交流等方面起到越来越重要的作用。但是作为沟通交流媒介,翻译错误会造成严重的后果,轻困惑及误解,经济损失甚至政治冲突事件。



为了解决上述问题,iSE实验室房春荣老师指导博士生张犬俊,创新性地提出了一种基于语法树剪枝的神经机器翻译测试方法STP。STP首先基于自然语言基本结构理论设计了一系列语义保留的剪枝算子,在依存树级别上提取原句的核心语义;然后构造相应的蜕变关系对原句和剪枝句进行配对;同时使用词袋模型来度量句子对之间的核心语义保留程度。结果表明STP成功在谷歌翻译和必应翻译上检测出数千个翻译错误,同时具有更短的检测时间。区别于现有的机器翻译测试技术,SPT不依赖于任何深度学习模型进行测试用例生成,在实际场景中非常轻量和快速,可以满足实时翻译错误检测要求。


该研究深入探索了重要的智能软件测试和质量保障问题,揭示了现有商业级翻译服务的翻译缺陷,可以帮助开发者进行相应的优化和修复,对翻译质量保障具有重要研究意义;同时可以帮助用户实时检测翻译结果可信性,对翻译工具可用性具有重要现实意义。该工作相关研究成果《Machine Translation Testing via Syntactic Tree Pruning》已被软件工程顶级国际期刊Transactions on Software Engineering and Methodology(TOSEM, CCF-A类期刊)全文录用,南京大学为第一单位。


张犬俊同学由陈振宇教授和房春荣助理研究员共同指导,其主要研究方向包括智能软件测试和自动程序修复,研究成果先后全文发表在ISSTA、ICSE、ACL、TSE、ASE、TOSEM、TDSC等权威国际学术期刊和会议。