我院 MAGUS 研究组的于凡、张贝贝等同学与导师合作完成的论文 " Group Visual Relation Detection " 被 IEEE TIP 期刊( IEEE Transactions on Image Processing )录用。
本研究提出了一种视觉关系检测任务——群体视觉关系检测,旨在识别以群体为主语或宾语的视觉关系。该任务拓展了传统视觉关系检测,突破了个体之间视觉关系的局限性,转而聚焦于现实视觉场景中广泛存在的群体关系。
为解决这一问题,我们提出了一种同步预测群体与关系的方法 SGRP。该方法包括三个核心模块:实体构建模块、特征提取模块和群体关系预测模块。实体构建模块负责构建实例、群体候选和短语候选;特征提取模块提取这些实体的视觉特征、位置信息和语义特征;群体关系预测模块则同时预测群体与谓词,从而生成完整的群体视觉关系。此外,为支持群体视觉关系检测任务的研究,我们构建了一个全新的数据集 COCO - GVR。该数据集包含 9570 张源自 COCO 数据集的图像,并由人工标注了 31855 条群体视觉关系。我们在 COCO - GVR 数据集上进行了广泛实验。实验结果表明,与现有的主流视觉关系检测和场景图生成方法相比,SGRP 有着更优的表现。
IEEE Transactions on Image Processing ( TIP ) 是图像处理领域的顶级期刊( CCF-A 期刊 )。