2ヶ月前

オブジェクト、フレーズ、および領域キャプションからのシーングラフ生成

Yikang Li; Wanli Ouyang; Bolei Zhou; Kun Wang; Xiaogang Wang
オブジェクト、フレーズ、および領域キャプションからのシーングラフ生成
要約

物体検出、シーングラフ生成、および領域キャプショニングは、異なる意味レベルでの3つのシーン理解タスクであり、これらは相互に関連しています:画像内で検出された物体とそれらの対の関係を予測してシーングラフが生成され、領域キャプショニングでは物体、その属性、関係、および他の文脈情報の言語的説明が与えられます。本研究では、これらの意味レベル間の相互接続を活用するために、新しいニューラルネットワークモデルであるマルチレベルシーン記述ネットワーク(Multi-level Scene Description Network, 以下MSDNと表記)を提案し、3つの視覚タスクをエンドツーエンドで統合的に解決します。まず、物体、フレーズ、およびキャプション領域が空間的および意味的な接続に基づいて動的グラフによって整列されます。次に、特徴量精製構造を使用して、グラフを通じて3つの意味レベルのタスク間でメッセージを伝達します。学習済みモデルを3つのタスクでベンチマーク評価を行い、提案手法による3つのタスク間での共同学習が既存モデルに対して相互に改善することを示しました。特にシーングラフ生成タスクにおいては、提案手法が最先端の手法よりも3%以上のマージンで優れた性能を発揮しています。