Vista-LLaMA:視覚トークンへの等距離を活用した動画言語モデルにおける幻覚の低減

大規模なビデオ・言語モデルにおける最近の進展は、ビデオ理解において有望な成果を示している。現在のアプローチは、ビデオをそのまま言語トークンに変換し、大規模言語モデルを用いてマルチモーダルタスクを実行するという単純な手法を採用している。しかし、この方法ではテキストの長さが増すにつれて、ビデオの影響が相対的に薄れ、関係のない内容(通称「ホールーシュレーション」)が生成されがちである。この問題に対処するために、本研究ではVista-LLaMAという新規フレームワークを提案する。Vista-LLaMAは、生成されるテキストの長さにかかわらず、すべての視覚トークンと任意の言語トークンの間の距離を一貫して維持する。視覚トークンと言語トークン間の注意重みを計算する際、相対的位置符号化(relative position encoding)を省略し、言語トークンとその位置符号化のみを保持する。これにより、視覚トークンの影響が言語生成に強く反映され、特に視覚トークンと言語トークンの相対的な距離が長い場合に顕著な効果が得られる。提案する注意機構は、ビデオ内容と関係のないテキストが生成される確率を大幅に低減する。さらに、前フレームの情報を活用して、現在のビデオフレームを言語空間のトークンに逐次投影する「逐次的視覚プロジェクター(sequential visual projector)」を導入する。この手法は、ビデオ内の時間的関係を効果的に捉えるとともに、全体のビデオ情報をより少ない視覚トークンで表現可能にする。実験結果によれば、本手法は4つの挑戦的なオープンエンド型ビデオ質問応答ベンチマークにおいて、従来の手法(例:Video-ChatGPT、MovieChat)を大きく上回る性能を達成した。特にゼロショット設定において、NExT-QAで60.7、MSRVTT-QAで60.5の精度を達成し、新たな最先端(state-of-the-art)性能を樹立した。本研究の詳細およびコードは、https://jinxxian.github.io/Vista-LLaMA にて公開されている。