4ヶ月前

概要

画像内の状況を認識する問題に取り組む。与えられた画像に対して、最も顕著な動詞（行動）を予測し、その意味的役割（例えば、誰が行動を実行しているか、行動の出発点や対象は何かなど）を埋め込むことが目的である。異なる動詞には異なる役割が伴う（たとえば「攻撃」には「武器」の役割がある）一方、各役割には多くの可能な値（名詞）が存在する。本研究では、グラフ上に定義されたニューラルネットワークを用いて、役割間の同時依存関係を効率的に捉えることができるグラフニューラルネットワーク（GNN）に基づくモデルを提案する。異なるグラフ接続性を用いた実験により、役割間での情報伝達を実現する本手法が、既存手法および複数のベースラインを顕著に上回ることが示された。全状況の予測において、従来手法に比べて約3〜5%の性能向上を達成した。さらに、モデルの定性的な分析および動詞における各役割の影響についても詳細に検討した。

ソースPDF