2ヶ月前

深度マップを使用した視覚関係検出の改善

Sahand Sharifzadeh; Sina Moayed Baharlou; Max Berrendorf; Rajat Koner; Volker Tresp
深度マップを使用した視覚関係検出の改善
要約

視覚関係検出手法は、RGB画像から抽出された物体情報(2Dバウンディングボックス、特徴マップ、予測クラス確率など)に依存しています。本研究では、深度マップが物体間の関係を示す貴重な情報を提供できると主張します。例えば、空間的な関係(後ろに立っているなど)だけでなく、非空間的な関係(持っているなど)の検出にも役立つ可能性があることを指摘しています。本研究では、特に深度マップに焦点を当てて異なる物体特徴を使用する効果を調査しました。この調査を可能にするために、Visual Genome (VG) の拡張として新しい合成データセットであるVG-Depthを公開しました。また、VGにおける関係の分布が非常に偏っていることから、一般的な視覚関係検出の評価指標では過小評価されている関係の改善が明らかにならない問題があります。この問題に対処するために、追加の指標であるMacro Recall@Kを提案し、その優れた性能をVG上で実証しました。最後に、実験結果により、単純ながら競争力のあるフレームワーク内で深度マップを効果的に利用することで、視覚関係検出の性能が最大8%向上することが確認されました。

深度マップを使用した視覚関係検出の改善 | 最新論文 | HyperAI超神経