16日前

GraghVQA:グラフベースの視覚質問応答のための言語誘導型グラフニューラルネットワーク

Weixin Liang, Yanhao Jiang, Zixuan Liu
GraghVQA:グラフベースの視覚質問応答のための言語誘導型グラフニューラルネットワーク
要約

画像は、単なる物体や属性の集合を超えて、相互に接続された物体間の関係性のネットワークを表している。このような背景を踏まえ、シーングラフ(Scene Graph)は画像を構造化されたグラフィカル表現で記述する新しいアプローチとして登場した。シーングラフでは、物体をノードとして表現し、ペアワイズの関係性をエッジとして連結することで、画像の構造を明示的にモデル化する。シーングラフ上で質問応答(QA)を実現するため、本研究では、自然言語による質問をグラフノード間の複数回のメッセージ伝達として翻訳・実行する、言語誘導型グラフニューラルネットワークフレームワーク「GraphVQA」を提案する。本研究では、GraphVQAフレームワークの設計空間を幅広く探索し、異なる設計選択肢のトレードオフについて議論する。GQAデータセットを用いた実験の結果、GraphVQAは最先端モデルを大きく上回る性能を示し、正解率は88.43%から94.78%まで向上した。

GraghVQA:グラフベースの視覚質問応答のための言語誘導型グラフニューラルネットワーク | 最新論文 | HyperAI超神経