17日前

自己適応型サンプリングによる画像-テキストモデル上の効率的な動画質問応答

Wei Han, Hui Chen, Min-Yen Kan, Soujanya Poria
自己適応型サンプリングによる画像-テキストモデル上の効率的な動画質問応答
要約

動画質問応答(Video Question Answering)は、動画理解分野における基本的なタスクである。現在の視覚言語モデル(VLMs)は、Video Transformerを搭載することで時間的モデリングを可能にし、優れた性能を達成しているが、その一方で膨大な計算資源を要するため、リアルタイム応用環境への導入にはコストが高すぎるとされている。経済的な代替策として、動画の主要な内容を代表する少数のフレームをサンプリングし、そのサンプルフレーム上で画像-テキストモデルを微調整する手法が用いられている。しかし、近年の動画理解モデルは、視覚的コンテンツ間の内部相関性や、質問に対する関連性を考慮せずに、単にランダムにフレームまたはクリップをサンプリングする傾向にある。本研究では、このような無差別なサンプリングにより、正解を導く上で重要なキーフレームを省略する可能性があると指摘する。特に、動画の長さが増すにつれてサンプリングの疎らさが顕著になるため、この問題はさらに悪化する。これを緩和するため、本研究では、与えられた質問に対して最も重要である可能性が高いフレームを最大限に保持する2つのフレームサンプリング戦略、すなわち「最もドメインに適したフレーム(Most Domain Frames, MDF)」と「最も含意されたフレーム(Most Implied Frames, MIF)」を提案する。MDFはブートストラップ的なアプローチにより、キーフレームの省略リスクを被動的に最小化するのに対し、MIFは補助モデルの支援を受けて、各動画-質問ペアに特化したキーフレームを能動的に探索する。CLIP、GIT、All-in-oneの3つの先進的なVLMを用いた3つの公開データセットにおける実験結果から、本研究で提案する戦略が画像-テキスト事前学習モデルの性能を向上させることを示した。本論文で提案する手法に関するソースコードは、https://github.com/declare-lab/sas-vqa にて公開されている。

自己適応型サンプリングによる画像-テキストモデル上の効率的な動画質問応答 | 最新論文 | HyperAI超神経