
要約
視覚シーンの構造化グラフ表現の生成に関する問題を調査しました。本研究では、モチーフ(scene graphsにおいて頻繁に現れる部分構造)の役割を分析しています。Visual Genomeデータセットにおけるこのような繰り返し構造について新たな定量的な洞察を提供します。分析結果によると、オブジェクトラベルは関係ラベルを高精度で予測できますが、その逆は成立しません。また、より大きな部分グラフにおいても繰り返しパターンが存在することがわかりました:50%以上のグラフが少なくとも2つの関係を含むモチーフを持っています。これらの分析結果に基づき、新しいベースラインを提案します:オブジェクト検出が与えられた場合、訓練セットで観察されたように、与えられたラベルを持つオブジェクトペア間の最も頻繁な関係を予測します。このベースラインは評価設定全体で平均して3.6%の相対的な改善を達成しています。さらに、Stacked Motif Networksという新しいアーキテクチャを導入しました。これは、scene graphsにおける高次のモチーフを捉えるために設計されており、我々の強力なベースラインに対して平均7.1%の相対的な向上を示しています。コードはgithub.com/rowanz/neural-motifsで公開されています。