Command Palette
Search for a command to run...
帧链 Chain-of-frames
帧链(Chain-of-frames,CoF)是由纽约大学阿布扎比中心、瑞士苏黎世联邦理工学院(ETH Zurich)与美国陆军研究实验室等团队于 2025 年 5 月 联合提出的,相关研究成果发表于论文为「Chain-of-Frames: Advancing Video Understanding in Multimodal LLMs via Frame-Aware Reasoning」。
在大语言模型领域,思维链使模型能够处理推理问题;与 LLMs 中的思维链相类似,帧链能使视频模型能够解决需要跨越时间和空间逐步推理的视觉问题,并且其与现有视频 CoT 方法不同,无需依赖额外的网络来选择或描述相关帧。实验表明,基于 CoF 的模型能够生成准确引用关键帧的链式推理,在多个视频理解基准测试中实现性能提升并显著降低幻觉率。 CoF 的提出,加速了视频模型成为统一的通用视觉基础模型进程。