2 个月前

全景场景图生成

Jingkang Yang; Yi Zhe Ang; Zujin Guo; Kaiyang Zhou; Wayne Zhang; Ziwei Liu

摘要

现有的研究从检测的角度出发，探讨了场景图生成（Scene Graph Generation, SGG）——这是图像场景理解中的一项关键技术。具体而言，这些方法首先使用边界框检测对象，然后预测它们之间的两两关系。我们认为，这种范式导致了若干问题，阻碍了该领域的进展。例如，当前数据集中的基于边界框的标签通常包含冗余的类别如头发，并且忽略了对理解上下文至关重要的背景信息。在本工作中，我们引入了一种新的任务——全景场景图生成（Panoptic Scene Graph Generation, PSG），该任务要求模型根据全景分割而非刚性的边界框生成更为全面的场景图表示。为了跟踪该领域的进展，我们为社区创建了一个高质量的PSG数据集，其中包含来自COCO和Visual Genome的49000张标注良好的重叠图像。为了进行基准测试，我们构建了四种两阶段基线模型，这些模型是对经典SGG方法的改进；以及两种单阶段基线模型PSGTR和PSGFormer，这两种模型基于高效的Transformer检测器（即DETR）。PSGTR通过一组查询直接学习三元组，而PSGFormer则通过两个Transformer解码器分别建模对象和关系的形式查询，并随后采用一种类似于提示的关系-对象匹配机制。最后，我们分享了关于开放挑战和未来方向的一些见解。