11日前

視覚対話のためのマルチビュー注意機構ネットワーク

Sungjin Park, Taesun Whang, Yeochan Yoon, Heuiseok Lim
視覚対話のためのマルチビュー注意機構ネットワーク
要約

視覚対話(Visual dialog)は、与えられた画像に基づいて視覚的に根ざした一連の質問に答えるという、視覚言語領域における困難なタスクである。このタスクを解決するためには、複数のマルチモーダル入力(例えば、質問、対話履歴、画像など)に対する高レベルな理解が不可欠である。具体的には、エージェントが以下の2点を実現する必要がある:1)質問の意味的意図を把握すること、2)異種モダリティの入力間において、質問に関連するテキスト的および視覚的情報を適切に整合すること。本稿では、注意機構(attention mechanism)に基づき、異種入力に対する複数の視点を活用するマルチビュー注意ネットワーク(Multi-View Attention Network: MVAN)を提案する。MVANは、2つの補完的なモジュール(すなわち、トピック集約(Topic Aggregation)とコンテキストマッチング(Context Matching))を用いて、対話履歴から質問に関連する情報を効果的に抽出し、順次的なモダリティ整合プロセス(Modality Alignment)を通じてマルチモーダル表現を構築する。VisDial v1.0データセットにおける実験結果から、本研究で提案するモデルの有効性が示され、すべての評価指標において従来の最先端手法を上回ることが確認された。

視覚対話のためのマルチビュー注意機構ネットワーク | 最新論文 | HyperAI超神経