7 天前
TraveLER:面向视频问答的模块化多LMM代理框架
Chuyi Shang, Amos You, Sanjay Subramanian, Trevor Darrell, Roei Herzig

摘要
近年来,基于图像的大型多模态模型(LMMs)在视频问答(VideoQA)任务中取得了显著进展,其采用逐帧处理的方法,通过大规模预训练实现零样本(zero-shot)推理。然而,这些模型必须同时具备定位相关信息、提取信息并回答问题的能力。现有方法通常在单次遍历中完成所有步骤,缺乏在获取信息不足或错误时进行动态调整的能力。为解决这一问题,我们提出一种基于多个具有不同角色的智能体(agents)的模块化多LMM代理框架,其中由一个规划器(Planner)代理负责协调,通过整合其他智能体的共享反馈来动态更新指令。具体而言,我们提出了TraveLER方法,该方法能够制定一个“遍历”视频的计划,针对单个视频帧提出问题以“定位”并存储关键信息,随后“评估”是否已收集到足够的信息以回答原始问题。若信息仍不足,系统可基于已有知识进行“重规划”(replanning),从而实现更高效的推理过程。通过大量实验验证,我们发现TraveLER方法在多个视频问答基准测试中均显著提升了性能,且无需在特定数据集上进行微调。相关代码已开源,地址为:https://github.com/traveler-framework/TraveLER。