7日前

大規模言語モデルは、動画質問応答における時系列的・因果的推論者である

Dohwan Ko, Ji Soo Lee, Wooyoung Kang, Byungseok Roh, Hyunwoo J. Kim
大規模言語モデルは、動画質問応答における時系列的・因果的推論者である
要約

大規模言語モデル(LLMs)は、自然言語理解および生成の多様なタスクにおいて顕著な性能を示している。本研究では、LLMsが動画質問応答(VideoQA)における時間的・因果的推論において「言語的ショートカット(linguistic shortcuts)」を効果的に活用するための強力な事前知識(prior)を提供していることを観察した。しかしながら、こうした事前知識は、モデルが質問に過度に依存し、視覚的コンテンツを無視するという「言語的バイアス(linguistic bias)」を引き起こすことが多く、結果としてVideoQAにおいて最適でない性能をもたらす。これは「根拠のない推測(ungrounded guesses)」や「幻覚(hallucinations)」とも呼ばれる現象である。本研究では、LLMsのこうした事前知識を活用しつつ、この問題に対処するため、新たなフレームワーク「Flipped-VQA」を提案する。このフレームワークは、入力ペアとターゲットラベルを入れ替えることで、$\langle$V, Q, A$\rangle$のすべての組み合わせを予測するようにモデルを促すものであり、具体的には、VQ、VA、QAペアをそれぞれ与えた際、A、Q、Vを予測するという複雑な関係性の理解を促進する。本論文では、Flipped-VQAをLLaMAに適用した「LLaMA-VQA」を構築し、5つの挑戦的なVideoQAベンチマークにおいて、LLMを用いたモデルおよび非LLMベースのモデルをすべて上回る性能を達成した。さらに、Flipped-VQAは様々なLLM(OPTやGPT-Jなど)に適用可能な汎用的フレームワークであり、一貫して性能向上をもたらすことを実証した。実験的に、Flipped-VQAが言語的ショートカットの活用を強化するとともに、質問に過度に依存する言語的バイアスを軽減し、誤った回答を抑制することを示した。コードはhttps://github.com/mlvlab/Flipped-VQAにて公開されている。

大規模言語モデルは、動画質問応答における時系列的・因果的推論者である | 最新論文 | HyperAI超神経