HyperAIHyperAI

Command Palette

Search for a command to run...

複数の入力間のすべての相互作用を処理可能な、視覚対話向けの効率的なAttentionメカニズム

Van-Quang Nguyen Masanori Suganuma Takayuki Okatani

概要

近年の視覚と言語の統合タスクに関する研究では、両モダリティ間の相互作用を効果的に扱うためのアテンション機構の設計が主要な課題となっている。最近、Transformerモデルは複数のバイモーダルタスクへ拡張・適用され、有望な成果を上げている。特に視覚対話(visual dialog)においては、画像、質問、対話履歴、あるいはそれらの個別コンポーネントといった3つ以上の入力間の相互作用を考慮する必要がある。本論文では、視覚対話における複数入力間のすべての相互作用を効率的に処理できるニューラルアーキテクチャ「Light-weight Transformer for Many Inputs(LTMI)」を提案する。このアーキテクチャはTransformerと類似したブロック構造を採用し、アテンション計算の設計も同一であるが、パラメータ数が極めて少なく、同時にタスクに必要な表現力は十分に備えている。標準的な視覚対話設定において、本提案アテンションブロックに基づく層は、自然なTransformer拡張と比較してパラメータ数が10分の1未満に抑えられる。VisDialデータセットにおける実験結果から、提案手法の有効性が検証され、単一モデルではVisDial v1.0データセットにおける最高NDCGスコアが57.59から60.92へ向上し、アンサンブルモデルでは64.47から66.53へ、さらには追加のファインチューニングにより74.88まで向上することが示された。本研究の実装コードは、https://github.com/davidnvq/visdial にて公開されている。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
複数の入力間のすべての相互作用を処理可能な、視覚対話向けの効率的なAttentionメカニズム | 記事 | HyperAI超神経