Command Palette
Search for a command to run...

摘要
近年来,统一多模态模型(Unified Multimodal Models, UMMs)的进展在视觉理解与生成任务中取得了显著突破。然而,现有的数据集与评测基准主要集中于单轮交互,难以捕捉现实世界中图像创作与编辑所具有的多轮、上下文依赖的本质特性。为弥补这一空白,我们提出了WEAVE——首个面向上下文内交错式跨模态理解与生成的综合性评测体系。该体系由两个互补部分构成:WEAVE-100k是一个大规模数据集,包含10万条交错式样本,涵盖超过37万轮对话与50万张图像,覆盖需基于历史上下文进行推理的理解、编辑与生成任务;WEAVEBench则是一个由人工标注的评测基准,包含基于480张图像设计的100项任务,采用融合视觉语言模型(VLM)的混合评判框架,结合参考图像以及原始图像与编辑指令的组合,全面评估模型在多轮生成、视觉记忆能力及跨领域世界知识推理方面的表现。实验结果表明,基于WEAVE-100k进行训练,能够显著提升模型在视觉理解、图像编辑以及理解-生成协同任务中的综合能力。同时,该数据集有助于统一多模态模型涌现出更强的视觉记忆能力。而在WEAVEBench上的广泛评估进一步揭示了当前方法在多轮、上下文感知的图像生成与编辑任务中仍存在持续性的局限与挑战。我们相信,WEAVE为多模态研究社区提供了观察视角与坚实基础,推动对上下文内交错式跨模态理解与生成的深入探索。