概要

テキストベースの再考プロセスに依存する自己反射メカニズムは、多数のマルチモーダルタスクにおいて優れた性能を発揮する。しかし、長時間動画理解のシナリオに直接適用した場合、明確な限界が見られる。この原因は以下の2点に帰属する：（1）長時間動画理解はより豊かで動的な視覚情報を持つため、テキスト情報のみを再考するだけでは不十分であり、視覚情報に特化したさらなる再考プロセスが不可欠となる；（2）純粋にテキストベースの反射メカニズムは、モーダル間の相互作用能力を欠いており、再考の過程で視覚情報を完全に統合できない。これらの知見に基づき、本研究ではツール拡張型マルチモーダル自己反射のための新規フレームワーク「REVISOR（REflective VIsual Segment Oriented Reasoning）」を提案する。REVISORは、マルチモーダル大規模言語モデル（MLLMs）がテキストおよび視覚モーダル間で協調的に内省的再考プロセスを構築可能にし、長時間動画理解における推論能力を顕著に向上させる。REVISORが強化学習の過程で質問に関連性の高い動画セグメントを正確に再評価する能力を学習できるよう保証するため、本研究では「二重帰属分離型報酬（Dual Attribution Decoupled Reward, DADR）」メカニズムを設計した。このメカニズムはGRPO学習戦略と統合され、モデルの推論と選択された動画証拠との間の因果的整合性を強制する。特に、REVISORフレームワークは、追加の教師あり微調整や外部モデルを必要とせずに、MLLMsの長時間動画理解能力を大幅に強化し、VideoMME、LongVideoBench、MLVU、LVBenchの4つのベンチマークにおいて優れた成果を達成した。

ソースPDF