MAGUS研究组在视觉媒体语义理解研究中取得阶段性进展

发布日期:2020-02-19 浏览次数:


随着智能手机等拍摄设备的普及和移动网络的不断提速,视觉媒体(图像和视频)逐步成为了分享信息的主要媒体形态。常言道,一图胜过千言万语,而视频又进一步涵盖了运动、音频等信息,具有非常丰富的表现力。视觉媒体语义理解一直是多媒体领域的研究热点和难点,也是诸多媒体应用的关键。MAGUS研究组在该方向上持续开展研究,努力提升图像和视频语义理解水平,完成了一系列原创性的工作。


现有的视频语义理解研究主要分为两类:一类是自底向上,对视频中的基本元素,如物体、动作、场景等,进行检测识别;另一类是自顶向下,直接生成视频的自然语言描述,如标题生成、视觉问答等。这两者可以类比于语言中的"单词"和"句子",缺乏了中间连接两者的"短语"层级描述。论文"Video visual relation detection"(MM 2017)从图像视觉关系检测任务出发,推广给出了视频视觉关系检测的任务描述,提出了首个视频视觉关系检测方法,并构建了首个视频视觉关系检测评测基准。

图1 视频视觉关系检测的任务描述


当前视觉关系检测中对不准确的和错误的检测结果未加区分,难以形成对视觉关系检测方法性能的准确评价。论文"Hierarchical visual relationship detection"(MM 2019)提出了层次式视觉关系检测任务,鼓励预测抽象但没有错误的视觉关系。该工作中提出了首个层次式视觉关系检测方法,构建了首个层次式视觉关系检测的评测基准。

图2 视觉关系检测(VRD)和层次式视觉关系检测(HVRD)的对比


图像中往往包含了大量的物体,但只有一小部分有助于反映图像内容主旨。现有的显著物体检测技术仅关注在视觉上突出的物体(如用餐的人),会造成检测结果中遗漏部分视觉上不显著、语义上较重要的物体(如使用的刀叉)。论文"Instance of interest detection"(MM 2019)中提出了兴趣物体检测任务,关注对表达图像语义重要的物体。该工作提出了Cross-Influential Network,根据物体自身兴趣度和与周边物体交互选择兴趣物体,并构建了首个兴趣物体检测的评测基准。

图3 兴趣物体检测与相关研究课题的对比


人群密度估计技术能够快速自动估计出给定场景中的人数,在安防等领域有着重要应用。论文"Crowd counting via multi-layer regression"(MM 2019)提出了基于多层回归的人群密度估计方法,将给定图像根据人群密度大小划分成不同区域,并对各个区域采用不同的回归器进行密度估计,有效地提升了密度估计的准确率。

图4 人群密度估计效果示意


MAGUS研究组成员还积极独立或合作参加视觉媒体理解相关的国际专业技术挑战赛,验证所研发技术的有效性和先进性,先后取得MM 2019 VRU挑战赛VRD任务冠军、ECCV 2018 PIC挑战赛冠军、MM 2019 CBVRP挑战赛Movie任务亚军、ICME 2019 SVU挑战赛亚军、MM 2017 SMP挑战赛季军、SHREC 2019 MI3DOR挑战赛优胜奖等奖项。

图5 MAGUS研究组成员在国际专业技术挑战赛中获得的部分奖项