16日前

場所フリーなシーングラフ生成

Ege Özsoy, Felix Holm, Mahdi Saleh, Tobias Czempiel, Chantal Pellegrini, Nassir Navab, Benjamin Busam

要約

シーングラフ生成（Scene Graph Generation, SGG）は、シーンをエンティティとそれらの関係性から構成されるグラフとして記述することを目的とする視覚理解タスクである。従来の手法は、バウンディングボックスやセグメンテーションマスクといった位置情報ラベルに依存しており、アノテーションコストを増加させるとともに、データセットの拡張を制限している。多くのアプリケーションにおいて位置情報の必要性が低いことに着目し、本研究ではこの依存関係を解消し、位置情報に依存しないシーングラフ生成（Location-Free SGG, LF-SGG）という新しいタスクを提案する。この新タスクは、エンティティのインスタンスおよびそれらの関係性を予測する際、空間的位置情報を明示的に計算することなく実現することを目指している。このタスクを客観的に評価するためには、予測されたシーングラフと真値のシーングラフを比較する必要があるが、これはNP困難な問題である。本研究では、効率的な分岐アルゴリズムを用いてこの問題を解決する。さらに、自己回帰的なシーケンスモデリングを活用した、初めてのLF-SGG手法であるPix2SGを設計した。提案手法は、3つのシーングラフ生成データセットおよび2つの下流タスク（画像検索および視覚的質問応答）において有効性を実証し、位置情報のヒントを一切用いないにもかかわらず、既存手法と同等の性能を達成することを示した。