HyperAIHyperAI

Command Palette

Search for a command to run...

フレーム連鎖:フレーム認識型推論による多モーダルLLMにおける動画理解の進展

Sara Ghazanfari Francesco Croce Nicolas Flammarion Prashanth Krishnamurthy Farshad Khorrami Siddharth Garg

概要

最近の研究では、ユーザーの質問に答える前に大規模言語モデル(LLM)に自然言語による推論プロセス(推論トレース)を生成させる手法が、さまざまなタスクにおけるモデル性能を顕著に向上させることを示している。このアプローチは、入力された画像や動画の内容について、チェーン・オブ・シンキング(CoT)を生成できるマルチモーダルLLMへと拡張されている。本研究では、推論ステップが関連する動画フレームに基づき、明示的にそれらのフレームを参照する動画LLMの構築を提案する。そのため、まず、自然および合成の動画に関する多様な質問・回答と、それに対応するフレームに根ざした推論トレースを含む大規模データセット「CoF-Data」を構築した。その後、このフレームごとの推論(CoF)データに基づいて既存の動画LLMをファインチューニングする。本手法はシンプルかつ自己完結型であり、従来の動画CoT手法とは異なり、関連フレームの選択やキャプション生成に補助的なネットワークを必要としない。実験の結果、CoFに基づくモデルは、与えられた質問に正確に答えるために重要なフレームを適切に参照する推論トレースを生成できることを示した。この効果により、複数の動画理解ベンチマークにおいて性能が向上し、特にVideo-MME、MVBench、VSI-Benchにおいて最先端の動画LLMを上回るとともに、幻覚(hallucination)の発生率を顕著に低減した。コードは以下のURLから公開されている。https://example.com


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
フレーム連鎖:フレーム認識型推論による多モーダルLLMにおける動画理解の進展 | 記事 | HyperAI超神経