Command Palette
Search for a command to run...
Sara Ghazanfari Francesco Croce Nicolas Flammarion Prashanth Krishnamurthy Farshad Khorrami Siddharth Garg

要約
最近の研究では、ユーザーの質問に答える前に大規模言語モデル(LLM)に自然言語による推論プロセス(推論トレース)を生成させる手法が、さまざまなタスクにおけるモデル性能を顕著に向上させることを示している。このアプローチは、入力された画像や動画の内容について、チェーン・オブ・シンキング(CoT)を生成できるマルチモーダルLLMへと拡張されている。本研究では、推論ステップが関連する動画フレームに基づき、明示的にそれらのフレームを参照する動画LLMの構築を提案する。そのため、まず、自然および合成の動画に関する多様な質問・回答と、それに対応するフレームに根ざした推論トレースを含む大規模データセット「CoF-Data」を構築した。その後、このフレームごとの推論(CoF)データに基づいて既存の動画LLMをファインチューニングする。本手法はシンプルかつ自己完結型であり、従来の動画CoT手法とは異なり、関連フレームの選択やキャプション生成に補助的なネットワークを必要としない。実験の結果、CoFに基づくモデルは、与えられた質問に正確に答えるために重要なフレームを適切に参照する推論トレースを生成できることを示した。この効果により、複数の動画理解ベンチマークにおいて性能が向上し、特にVideo-MME、MVBench、VSI-Benchにおいて最先端の動画LLMを上回るとともに、幻覚(hallucination)の発生率を顕著に低減した。コードは以下のURLから公開されている。https://example.com