2ヶ月前

CinePile: 長編ビデオの質問応答データセットとベンチマーク

Ruchit Rawal; Khalid Saifullah; Miquel Farré; Ronen Basri; David Jacobs; Gowthami Somepalli; Tom Goldstein
CinePile: 長編ビデオの質問応答データセットとベンチマーク
要約

現在の長編ビデオ理解用データセットは、しばしば本物の長編理解の課題を提供するのに十分ではなく、これらのデータセットから派生した多くのタスクが、ビデオから単一または数フレームをランダムに分析することで成功裏に解決できる場合が多いです。この問題に対処するために、私たちは本物の長編ビデオ理解のために特別に設計された新しいデータセットとベンチマーク、CinePile(シネパイル)を提示します。本論文では、質問回答データセットを作成するための革新的なアプローチについて詳細に説明します。このアプローチでは、人間の介入を組み込んだ最先端のLLM(大規模言語モデル)を使用し、人間によって生成された原始データに基づいています。私たちの包括的なデータセットには305,000件の選択肢付き質問(MCQs)が含まれており、時間的把握、人物-物体相互作用の理解、シーン内のイベントや行動に関する推論など、さまざまな視覚的およびマルチモーダルな側面をカバーしています。さらに、オープンソースのVideo-LLMs(ビデオ大規模言語モデル)を訓練分割で微調整し、当社のデータセットのテスト分割でオープンソースおよび独自開発のビデオ中心的なLLMを評価しました。結果は、現在のモデルが人間に比べて性能が劣っているものの、これらのモデルを微調整することで大幅な性能向上につながることを示唆しています。

CinePile: 長編ビデオの質問応答データセットとベンチマーク | 最新論文 | HyperAI超神経