应用软件工程技术中心在计算机视觉的深度学习领域取得重要进展

发布日期:2021-04-16 浏览次数:


       随着深度学习的发展,计算机视觉方面的深度学习的研究取得了稳固的进步。然而深度神经网络的各个组件的功效,如何理解不同模块的真正作用仍旧存在许多值得探求的地方。现在的深度学习在视觉领域最为常用的组件就是Batch Normalization (BN),这种简单的对于输出进行归一化的方式却能够使得网络的鲁棒性和收敛速度有很大的提升。然而最近5年来针对BN的研究和分析却依旧没能很完好的解释BN为何有用这个核心问题。围绕着这一个核心问题,该工作提出了一些可能的研究方向并提出了一种能够完全不归一化输出层的方式来让网络有较快的收敛速度以及鲁棒性。


       我院应用软件工程技术中心硕士研究生刘宇翔为第一作者,葛季栋老师和李传艺老师指导,与东南大学桂杰老师合作,发表在AAAI Conference on Artificial Intelligence (AAAI 21, 该会议是CCF AI方向A类)上的研究论文。本文的主要贡献包括:(1)从理论上揭示了平均梯度偏移是如何导致网络无法训练的;(2)提出了Parametric Weights Standardization(PWS)的方式来替代BN,这种方式所需的计算量比BN少,同时对于小Batch Size有很好的鲁棒性,这个方法能够很好的替代掉所有的BN,也从侧面论证了BN的一个作用是消除平均梯度偏移;(3)实验结果也表明了归一化输出层并不是获得快收敛速度以及高精度的唯一方式。


图 1 细粒度的方差传播公式。


       本文通过如图1的公式推导以及实际测量值的探究,发现了方差在细粒度的传播时存在的平均梯度偏移的现象会导致网络正向传播的方差出现爆炸,也因此会导致梯度出现很大幅度的波动。根据上述分析,本文围绕着这个细粒度的方差传播公式,得出了一种从方差传播的角度与BN等价的方法。同时这种方法并不会对输出层进行归一化,计算开销小,对于参数归一化的方式使得这个方法对于小batch size有很好的鲁棒性,这种方法从图1所述的公式的角度与BN完全等价,后续的相关实验也证明了,在完全替换掉所有BN,并且不归一化输出层的情况下,本文的方法对于小batch size (如2)以及通常的batch size设置下都能够取得很好的结果。通过对于ImageNet,VOC,COCO几个数据集的图像分类和目标检测的实验研究,通过验证本文方法的可行性也论证了BN有效的一个原因就是解决了平均梯度的偏移。


参考文献:

Y. Liu, J. Ge*, C. Li, J. Gui*, Delving into variance transmission and normalization: Shift of average gradient makes the network collapse, AAAI Conference on Artificial Intelligence (AAAI), 2021