2 个月前

利用深度图改进视觉关系检测

Sahand Sharifzadeh; Sina Moayed Baharlou; Max Berrendorf; Rajat Koner; Volker Tresp
利用深度图改进视觉关系检测
摘要

视觉关系检测方法依赖于从RGB图像中提取的物体信息,如二维边界框、特征图和预测的类别概率。我们认为,深度图可以额外提供关于物体关系的宝贵信息,例如不仅有助于检测空间关系(如站在后面),还可以检测非空间关系(如握持)。在本研究中,我们探讨了使用不同物体特征的影响,特别关注深度图的作用。为了支持这一研究,我们发布了一个新的合成数据集——VG-Depth,作为Visual Genome (VG) 数据集的扩展。此外,我们注意到由于VG中关系分布的高度不平衡,常用的视觉关系检测评估指标无法揭示少数关系的改进。为了解决这一问题,我们提出了一种附加的评估指标,称为Macro Recall@K,并展示了其在VG上的显著性能。最后,我们的实验结果证实,在一个简单但具有竞争力的框架内有效利用深度图,可以将视觉关系检测的性能提高多达8%。

利用深度图改进视觉关系检测 | 最新论文 | HyperAI超神经