Command Palette

Search for a command to run...

19 天前

帧链:通过帧感知推理推进多模态LLM中的视频理解

Sara Ghazanfari Francesco Croce Nicolas Flammarion Prashanth Krishnamurthy Farshad Khorrami Siddharth Garg

帧链:通过帧感知推理推进多模态LLM中的视频理解

摘要

近期研究表明,在回应用户请求之前,引导大型语言模型(LLMs)以自然语言生成推理过程,能够显著提升其在各类任务中的表现。这一方法已被拓展至多模态大语言模型,使模型能够对输入图像和视频内容生成链式思维(Chain-of-Thought, CoT)推理。在本工作中,我们提出构建一种视频大语言模型,其推理步骤基于并明确指向相关视频帧。为此,我们首先构建了CoF-Data——一个大规模、多样化的数据集,包含针对自然视频与合成视频的各类问题、答案,以及与具体视频帧相对应的推理过程。该数据集覆盖广泛的主题与任务。随后,我们在这一帧级链式推理(Chain-of-frames, CoF)数据上对现有视频大语言模型进行微调。我们的方法简单且自洽,与现有视频CoT方法不同,无需依赖额外的网络来选择或描述相关帧。实验表明,基于CoF的模型能够生成准确引用关键帧的链式推理,从而在多个视频理解基准测试中实现性能提升,例如在Video-MME、MVBench和VSI-Bench上超越当前领先的视频大语言模型,并显著降低幻觉率。代码已公开,可访问此链接:https://...

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供