Command Palette
Search for a command to run...
LiveCC:大規模なストリーミング音声転写を用いた動画言語モデルの学習
LiveCC:大規模なストリーミング音声転写を用いた動画言語モデルの学習
Joya Chen Ziyun Zeng Yiqi Lin Wei Li Zejun Ma Mike Zheng Shou
概要
近年の動画大規模言語モデル(Video LLM)は、学習データの生成に高コストな人間によるラベル付けや専有モデルAPI(例:GPT-4o)に依存する傾向にあり、大規模な学習が制限される要因となっている。本論文では、低コストな自動音声認識(ASR)テキストを活用したVideo LLMの大規模学習に取り組む。具体的には、ASRの単語と動画フレームをそのタイムスタンプに従って高密度に交互に配置する新たなストリーミング学習アプローチを提案する。従来のASRを用いた視覚言語表現研究と比較して、本手法はASRのストリーミング特性に自然に適合しており、時間的に整合した細粒度な視覚言語モデリングをモデルが学習可能となる。本学習アルゴリズムを支えるため、YouTube動画とその字幕(CC、ASRと同等)を処理するデータ生成パイプラインを導入し、事前学習用のLive-CC-5Mデータセットおよび高品質な教師あり微調整(SFT)用のLive-WhisperX-526Kデータセットを構築した。注目すべきは、SFTを一切行わない状態でも、ASRのみで事前学習されたLiveCC-7B-Baseモデルが競争力ある一般動画QA性能を示し、リアルタイム動画解説という新たな能力を有していることである。これを評価するために、LLMをジャッジとして用いた自由形式解説の評価を可能にする新規ベンチマーク「LiveSports-3K」を丁寧に設計した。実験の結果、最終的なLiveCC-7B-Instructモデルは、リアルタイム動作下でも、先進的な72B規模モデル(Qwen2.5-VL-72B-Instruct、LLaVA-Video-72B)を上回る解説品質を達成した。同時に、VideoMMEやOVOBenchといった代表的な動画QAベンチマークにおいて、7B/8Bスケールで最先端の性能を達成しており、本手法の広範な汎化能力を示している。本研究のすべてのリソースは、以下のURLにて公開されている。