HyperAIHyperAI

Command Palette

Search for a command to run...

GraghVQA:グラフベースの視覚質問応答のための言語誘導型グラフニューラルネットワーク

Weixin Liang Yanhao Jiang Zixuan Liu

概要

画像は、単なる物体や属性の集合を超えて、相互に接続された物体間の関係性のネットワークを表している。このような背景を踏まえ、シーングラフ(Scene Graph)は画像を構造化されたグラフィカル表現で記述する新しいアプローチとして登場した。シーングラフでは、物体をノードとして表現し、ペアワイズの関係性をエッジとして連結することで、画像の構造を明示的にモデル化する。シーングラフ上で質問応答(QA)を実現するため、本研究では、自然言語による質問をグラフノード間の複数回のメッセージ伝達として翻訳・実行する、言語誘導型グラフニューラルネットワークフレームワーク「GraphVQA」を提案する。本研究では、GraphVQAフレームワークの設計空間を幅広く探索し、異なる設計選択肢のトレードオフについて議論する。GQAデータセットを用いた実験の結果、GraphVQAは最先端モデルを大きく上回る性能を示し、正解率は88.43%から94.78%まで向上した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています