Command Palette

Search for a command to run...

9 天前

WEAVE:释放并基准测试上下文交错理解与生成能力

WEAVE:释放并基准测试上下文交错理解与生成能力

摘要

近年来,统一多模态模型(Unified Multimodal Models, UMMs)的进展在视觉理解与生成任务中取得了显著突破。然而,现有的数据集与评测基准主要集中于单轮交互,难以捕捉现实世界中图像创作与编辑所具有的多轮、上下文依赖的本质特性。为弥补这一空白,我们提出了WEAVE——首个面向上下文内交错式跨模态理解与生成的综合性评测体系。该体系由两个互补部分构成:WEAVE-100k是一个大规模数据集,包含10万条交错式样本,涵盖超过37万轮对话与50万张图像,覆盖需基于历史上下文进行推理的理解、编辑与生成任务;WEAVEBench则是一个由人工标注的评测基准,包含基于480张图像设计的100项任务,采用融合视觉语言模型(VLM)的混合评判框架,结合参考图像以及原始图像与编辑指令的组合,全面评估模型在多轮生成、视觉记忆能力及跨领域世界知识推理方面的表现。实验结果表明,基于WEAVE-100k进行训练,能够显著提升模型在视觉理解、图像编辑以及理解-生成协同任务中的综合能力。同时,该数据集有助于统一多模态模型涌现出更强的视觉记忆能力。而在WEAVEBench上的广泛评估进一步揭示了当前方法在多轮、上下文感知的图像生成与编辑任务中仍存在持续性的局限与挑战。我们相信,WEAVE为多模态研究社区提供了观察视角与坚实基础,推动对上下文内交错式跨模态理解与生成的深入探索。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
WEAVE:释放并基准测试上下文交错理解与生成能力 | 论文 | HyperAI超神经