11日前

複数の入力間のすべての相互作用を処理可能な、視覚対話向けの効率的なAttentionメカニズム

Van-Quang Nguyen, Masanori Suganuma, Takayuki Okatani

要約

近年の視覚と言語の統合タスクに関する研究では、両モダリティ間の相互作用を効果的に扱うためのアテンション機構の設計が主要な課題となっている。最近、Transformerモデルは複数のバイモーダルタスクへ拡張・適用され、有望な成果を上げている。特に視覚対話（visual dialog）においては、画像、質問、対話履歴、あるいはそれらの個別コンポーネントといった3つ以上の入力間の相互作用を考慮する必要がある。本論文では、視覚対話における複数入力間のすべての相互作用を効率的に処理できるニューラルアーキテクチャ「Light-weight Transformer for Many Inputs（LTMI）」を提案する。このアーキテクチャはTransformerと類似したブロック構造を採用し、アテンション計算の設計も同一であるが、パラメータ数が極めて少なく、同時にタスクに必要な表現力は十分に備えている。標準的な視覚対話設定において、本提案アテンションブロックに基づく層は、自然なTransformer拡張と比較してパラメータ数が10分の1未満に抑えられる。VisDialデータセットにおける実験結果から、提案手法の有効性が検証され、単一モデルではVisDial v1.0データセットにおける最高NDCGスコアが57.59から60.92へ向上し、アンサンブルモデルでは64.47から66.53へ、さらには追加のファインチューニングにより74.88まで向上することが示された。本研究の実装コードは、https://github.com/davidnvq/visdial にて公開されている。