17日前

視覚質問応答のためのコンパクトな三重線形相互作用

Tuong Do, Thanh-Toan Do, Huy Tran, Erman Tjiputra, Quang D. Tran
視覚質問応答のためのコンパクトな三重線形相互作用
要約

視覚的質問応答(Visual Question Answering, VQA)において、回答は質問の意味と視覚的コンテンツと強く相関している。そのため、画像、質問、回答の情報の中から効果的に有用な情報を選択的に活用するため、本研究では、これらの3つの入力間の高次元の関係を同時に学習可能な新しい三線形相互作用モデルを提案する。さらに、相互作用の複雑さを克服するために、マルチモーダルテンソルに基づくPARALIND分解を導入し、3つの入力間の三線形相互作用を効率的にパラメータ化する。また、本研究では、自由形式のオープンエンドVQAにおいて、知識蒸留(knowledge distillation)を初めて適用する。これは、計算コストおよびメモリ消費の低減に加え、三線形相互作用モデルから二線形相互作用モデルへの知識の転移を可能にする。TDIUC、VQA-2.0、Visual7Wのベンチマークデータセットにおける広範な実験結果から、提案するコンパクトな三線形相互作用モデルが、単一モデルとしての使用において、すべての3つのデータセットで最先端の性能を達成することが示された。

視覚質問応答のためのコンパクトな三重線形相互作用 | 最新論文 | HyperAI超神経