HyperAI

近年来，统一多模态模型（Unified Multimodal Models, UMMs）的进展在视觉理解与生成任务中取得了显著突破。然而，现有的数据集与评测基准主要集中于单轮交互，难以捕捉现实世界中图像创作与编辑所具有的多轮、上下文依赖的本质特性。为弥补这一空白，我们提出了WEAVE——首个面向上下文内交错式跨模态理解与生成的综合性评测体系。该体系由两个互补部分构成：WEAVE-100k是一个大规模数据集，包含10万条交错式样本，涵盖超过37万轮对话与50万张图像，覆盖需基于历史上下文进行推理的理解、编辑与生成任务；WEAVEBench则是一个由人工标注的评测基准，包含基于480张图像设计的100项任务，采用融合视觉语言模型（VLM）的混合评判框架，结合参考图像以及原始图像与编辑指令的组合，全面评估模型在多轮生成、视觉记忆能力及跨领域世界知识推理方面的表现。实验结果表明，基于WEAVE-100k进行训练，能够显著提升模型在视觉理解、图像编辑以及理解-生成协同任务中的综合能力。同时，该数据集有助于统一多模态模型涌现出更强的视觉记忆能力。而在WEAVEBench上的广泛评估进一步揭示了当前方法在多轮、上下文感知的图像生成与编辑任务中仍存在持续性的局限与挑战。我们相信，WEAVE为多模态研究社区提供了观察视角与坚实基础，推动对上下文内交错式跨模态理解与生成的深入探索。

WEAVE：释放并基准测试上下文交错理解与生成能力

Wei Chow Jiachun Pan Yongyuan Liang Mingze Zhou Xue Song Liyu Jia Saining Zhang Siliang Tang Juncheng Li Fengda Zhang

摘要

用 AI 构建 AI

Hyper Newsletters

Command Palette

WEAVE：释放并基准测试上下文交错理解与生成能力

Wei Chow Jiachun Pan Yongyuan Liang Mingze Zhou Xue Song Liyu Jia Saining Zhang Siliang Tang Juncheng Li Fengda Zhang3 more

摘要

用 AI 构建 AI

Hyper Newsletters

Wei Chow Jiachun Pan Yongyuan Liang Mingze Zhou Xue Song Liyu Jia Saining Zhang Siliang Tang Juncheng Li Fengda Zhang