ビデオ-LMM ポストトレーニング:大規模マルチモーダルモデルを用いたビデオ推論の深層分析

ビデオ理解は、コンピュータビジョンにおける最も挑戦的な研究分野であり、複雑な時空間的関係性、長期依存関係、およびマルチモーダルな証拠に対する推論をモデルに要求する。近年、視覚エンコーダと強力なデコーダベースの言語モデルを統合した「ビデオ大規模マルチモーダルモデル(Video-LMM)」が登場し、ビデオ理解タスクにおいて顕著な性能を示している。しかし、これらのモデルを単なる感知システムから高度な推論エンジンへと進化させる上で不可欠な「事後訓練(post-training)」の段階は、これまでの文献において散在しており、統合的な理解が得られていない。本調査は、Video-LMMに対する事後訓練手法について、初めて包括的な検討を試みるものであり、以下の三つの柱を対象とする:思考過程を伴う教師ありファインチューニング(SFT)、検証可能な目的関数に基づく強化学習(RL)、および推論計算を強化したテスト時スケーリング(TTS)。本調査では、これらの手法の役割、相互関係、およびビデオ固有の適応法を明確にするための体系的な分類体系を提示し、時系列局所化、時空間的対応付け、長時間ビデオ処理の効率性、マルチモーダル証拠の統合といった特有の課題に対処する。代表的な手法を体系的に分析することで、重要な設計原則、洞察、評価プロトコルを整理するとともに、報酬設計、スケーラビリティ、コストパフォーマンス最適化に関する重要な未解決課題を明らかにする。さらに、事後訓練の有効性を厳密に評価するための主要なベンチマーク、データセット、評価指標を収集・整理した。本調査は、研究者および実務家がVideo-LMMの能力を一貫して向上させるための統合的なフレームワークを提供することを目的としている。追加のリソースおよび最新情報は以下のページで維持されている:https://github.com/yunlong10/Awesome-Video-LMM-Post-Training