HyperAIHyperAI

Command Palette

Search for a command to run...

Crafter:用于从多样化输入生成可编辑科学图表的多 Agent 框架

Haozhe Zhao Shuzheng Si Zhenhailong Wang Zheng Wang Liang Chen Xiaotong Li Zhixiang Liang Maosong Sun Minjia Zhang

摘要

科学图表是传达复杂研究思想最有效的手段之一,然而制作达到出版质量的插图仍是论文准备过程中最为耗时的环节之一。现有的自动化系统仅针对纯文本输入下的单一图表类型,未能解决研究人员实际使用的多种图表类型与条件的多样性;且其光栅输出无法进行局部修改。由于科学图表是由离散的语义组件构成的结构化组合,生成器在这些布局上产生的局部错误并非需要更强的骨干网络,而是需要一个编排框架。我们通过两个互补的系统实现了该框架:Crafter是一个用于图表生成的多agent编排框架,无需架构更改即可跨图表类型与输入条件实现泛化;CraftEditor则应用相同模式,将光栅输出转换为可编辑的SVG。此外,我们引入了CraftBench,一个涵盖三种图表类型与四种输入条件并附有人工质量标注的基准。实验表明,Crafter在PaperBanana-Bench与CraftBench上显著优于独立生成器与agent基线,消融实验证实了各组件的独立贡献;CraftEditor能够将输出精准转换为可编辑的SVG,其效果超越所有基线。我们的代码与基准数据集已开源,访问地址为:https://github.com/HaozheZhao/Crafter

一句话总结

本文提出 CRAFTER,这是一个多 agent 框架,能够针对多种类型的图表及不同的输入条件生成达到出版质量的研究图表;同时提出 CRAFTEDITOR,可将光栅输出转换为可编辑的 SVG 格式。在 PaperBanana-Bench 和 CRAFTBENCH 评估中,这两个系统的表现均显著优于现有基线方法。

核心贡献

  • CRAFTER 是一个用于科学图表生成的多 agent 框架,无需修改架构即可泛化至多种图表类型与输入条件。其通过三大核心机制运行:并行驱动的多样性计划探索、用于类型化编辑的结构化修正层,以及由指令型评审器驱动的“验证后优化”循环。
  • CRAFTEDITOR 通过包含资产提取、矢量或光栅分类以及迭代组合的三阶段流水线,将光栅图表输出转换为可编辑的 SVG。混合评审器指导优化过程,以确保结构转换的准确性。
  • CRAFTBENCH 是一个包含 279 个样本的基准测试,涵盖三种图表类型与四种输入条件,数据来源于已发表的研究成果并经过人工质量标注。在该基准与 PaperBanana-Bench 上的评估表明,两个系统均显著优于现有基线,消融实验进一步证实了各架构组件的独立贡献。

引言

科学图表对于传达复杂的研究成果至关重要,然而生成达到出版质量的插图仍是研究人员面临的高耗时瓶颈。现有的自动化系统受限于应用范围狭窄,通常仅支持单一图表类型与纯文本输入,且生成的光栅输出无法支持对标签、颜色或组件的本地化修改。这些早期方法也未能解决科学图表的结构化特性问题,即语义布局中的局部错误需要针对性修正,而非全局重新生成。研究团队利用多 agent 编排框架突破上述局限,提出 CRAFTER,该框架通过共享且持续演进的规范,在多种图表类型与多样化输入条件下实现泛化,从而支持迭代优化。此外,团队配套开发了 CRAFTEDITOR 用于将光栅输出转换为可编辑的 SVG,并开源了 CRAFTBENCH 基准测试,该基准涵盖多种图表类型与输入条件,旨在评估跨类型泛化能力与结构可编辑性。

数据集

  • 数据集构成与来源: 研究团队构建了 CRAFTBENCH,这是一个包含 279 个样本的基准测试,数据来源于五个集合,涵盖 18 个学科的 arXiv 预印本、顶级会议海报以及长篇研究博客。arXiv 数据的收集依赖两次定向爬取:一次针对通用方法图表的广域爬取,以及利用特定标题关键词聚焦于架构与流水线图表的专项爬取。

  • 子集详情与过滤规则: 该数据集涵盖三种视觉风格(学术图表、海报与信息图)以及四种生成任务。文生图生成是规模最大的子集,包含 179 个样本,其次为草图条件生成(40 个)、掩码补全(30 个)与关键元素组合(30 个)。所有样本均源自经过七阶段质量流水线的 553 个初始候选样本。该流水线依次执行标题关键词过滤、视觉语言分类(仅保留图表与插图)、复杂度评分(要求至少包含八个独立组件且设计丰富度评级达到 5 分制的 4 分),以及一致性验证(确保标题与视觉主张高度匹配)。在两次视觉语言质量审查环节,会剔除水印、低分辨率及裁剪伪影等无关元素,最终录用需获得三位研究生级别标注员的一致同意。

  • 数据使用与处理: 研究团队将 CRAFTBENCH 作为标准化评估基准而非训练集使用。数据集结构旨在测试模型在文生图生成及三种参考条件任务上的表现,任务分布作为评估混合比例。处理流程侧重于保持高保真的条件输入,并确保每个样本准确反映其来源领域,避免领域泄露或合成数据污染。

  • 元数据构建与额外处理: 标注流程将每个文生图样本与其原始标题及来源论文文本进行配对。针对参考条件任务,流水线会构建针对掩码补全、草图引导与关键元素定位的特定条件输入。所有参考输入均通过专用接口进行验证,意见分歧将触发迭代修订直至达成共识,从而为基准测试提供可靠的条件数据。

方法

研究团队利用多 agent 框架解决生成可靠科学图表所面临的挑战,包括输出方差大、自由文本修正导致的提示词退化以及缺乏结构化反馈等问题。该框架在图表生成中实例化为 CRAFTER,在光栅转矢量转换中实例化为 CRAFTEDITOR,其作为执行器外围的编排层运行,能够在不修改底层生成器的情况下实现规划、验证与修订。该方法的核心在于围绕共享且持续演进的规范 S\mathcal{S}S 进行四角色循环,该规范会累积当前计划、修订历史与诊断信息(图 1)。在每一轮 ttt 中,设计器 D\mathcal{D}D 生成可执行计划 ptp_tpt,执行器 E\mathcal{E}E 将其渲染为产物 ata_tat,验证器 V\mathcal{V}V 输出包含各维度评分、已识别缺陷及建议修正的指令型诊断 dtd_tdt,修订器 R\mathcal{R}RSt1\mathcal{S}_{t-1}St1 应用类型化编辑(例如添加布局约束或调整元素尺寸),此操作直接在规范原地修改而非追加自由文本。当验证器接受产物或达到轮次预算 TTT 时循环终止,返回得分最高的产物 aa^*a。该结构确保所有特定任务的行为均位于角色提示词中,且规范始终保持内部一致性。

如图一所示,CRAFTER 系统利用五个协同 agent 实现该框架。意图推理器分析输入上下文与指令,推断图表的传播角色与所需元素,从而初始化规范 S0S_0S0。计划生成器 D\mathcal{D}D 提出 KKK 个候选视觉计划,每个计划具有不同的构图框架,图像生成后端 E\mathcal{E}E 并行渲染这些计划。评审器 V\mathcal{V}V 根据规范与原始输入评估所有候选方案,规范优化器 R\mathcal{R}R 将类型化编辑写回 SSS。收敛裁判负责控制循环,决定接受、继续优化或回退至最优产物。系统采用三项关键机制以应对已识别的失败模式。首先,多样性驱动的探索将现代图像生成器的高方差视为搜索问题。计划生成器提出多个意图条件候选计划,收敛裁判选择最佳初始候选,使系统在消耗任何渲染预算前即可避开根本不适用的构图选择。

其次,结构化修正层以规范上的类型化编辑替代自由文本修订。修订器 R\mathcal{R}R 将诊断信息 dtd_tdt 转换为一组结构化操作,直接在 S\mathcal{S}S 中进行原地修改,确保下一轮提示词基于连贯一致的记录构建,而非不断堆积潜在冲突的修改意见。第三,结合指令型评审器的“验证后优化”循环用于解决初代输出中的局部错误。评审器输出包含各维度评分、已识别缺陷与建议的详细诊断 dtd_tdt。优化循环最多运行 T=3T=3T=3 轮,并设有历史最优检查点,若当前轮次表现倒退则回退至得分最高的产物,从而防范语言模型驱动编辑中常见的非单调行为。

如图二所示,CRAFTEDITOR 复用相同的框架模式实现光栅转矢量转换。其运行分为三个阶段:提取、处理与组合。提取阶段采用指令驱动循环,视觉语言设计 agent D\mathcal{D}D 编写保留/删除计划,图像编辑执行器 E\mathcal{E}E 执行该计划,验证器 V\mathcal{V}V 检查结果,最多经过 T=3T=3T=3 次迭代完成优化。处理阶段对每个提取的元素进行标题生成、定位与分类。组合阶段利用完整框架循环将资产组装为 SVG,其中设计器 D\mathcal{D}D 生成候选 SVG 骨架,执行器 E\mathcal{E}E 拼接资产,混合评审器 V\mathcal{V}V(结合视觉语言模型与程序化检查器)评估输出,驱动最多 T=4T=4T=4 轮的迭代优化。整个系统依赖共享规范 S\mathcal{S}S,所有 agent 均对其进行读写,且 agent 之间不直接传递自由文本附加内容。针对文生图样本,图像生成后端按每个计划调用一次;针对参考条件任务,则通过多模态接口调用,新增任务仅需对流水线进行微小调整。修订过程由收敛裁判控制,该裁判应用硬性规则与视觉语言验收调用,在修正后遍历中选择得分最高的产物。

实验

评估工作采用两个基准测试,通过经人类偏好研究验证的参考式 VLM 裁判协议进行打分,从而支持对多种图表类型与输入条件的评估。主实验表明,所提框架持续优于现有基线,展现出广泛的泛化能力,且该能力不受底层图像生成器影响。消融实验证实,各架构组件(包括计划探索与迭代优化)均能独立提升结构准确性与内容保真度。最后,光栅转 SVG 编辑器通过利用指令驱动提取与评审器引导组合,成功生成可编辑输出,有效弥合了初始生成与精确后处理之间的差距。

{"summary": "该表格展示了针对 CRAFTER 框架中候选计划数量与优化轮次变化的消融实验结果。结果表明,增加候选计划数量与优化轮次可提升所有质量维度的性能,完整配置取得最高综合得分。计划自适应策略与迭代优化策略产生互补增益,同时提升了结构正确性与整体质量。", "highlights": ["增加候选计划数量可改善结构与整体质量,自适应规划在复杂输入上提供额外提升。", "迭代优化提升所有质量维度的性能,更多轮次带来更佳结果。", "结合自适应规划与迭代优化的完整配置取得最高得分,证明两种机制具有互补效益。"]

研究团队对系统组件进行了成本分析,结果表明,由于采用多步骤生成与优化流程,CRAFTER 与 CRAFTEDITOR 的单图推理成本高于基线方法。CRAFTER 的成本随所用图像生成骨干网络的差异而变化,高级版本成本略有上升。CRAFTEDITOR 为每次光栅转 SVG 转换增加少量额外成本,主要来源于迭代优化步骤。CRAFTER 与 CRAFTEDITOR 因多步骤流程导致单图推理成本高于基线方法。CRAFTER 的成本随图像生成骨干网络复杂度的增加而上升。CRAFTEDITOR 为每次光栅转 SVG 转换增加固定且较低的成本。

研究团队在两个基准测试上评估了科学图表生成与编辑框架,证明所提系统在综合得分与单任务表现上均优于独立生成器及其他 agent 框架。结果表明,该框架在所有质量维度与任务上持续超越其底层生成器,展现出对多样化输入条件与图表类型的强大泛化能力。性能提升归功于计划探索、迭代优化与修正编辑等关键机制,这些机制被证实对整体改进具有独立贡献。CRAFTER 在两个基准测试上均取得最高综合得分,在所有任务与质量维度上均超越所有基线及其独立生成器。该框架在所有任务与维度上均一致优于其骨干网络,证明其泛化能力超出单一条件设置。消融实验证实,框架内的各机制均对性能产生独立贡献,其中计划探索与迭代优化影响尤为显著。

研究团队开展消融实验以评估 CRAFTER 框架中各机制的贡献,将完整流水线与逐一移除单一组件的版本进行对比。结果表明,移除任一机制均会导致整体性能下降,其中移除计划探索或修正层时下降最为显著,表明二者在维持内容保真度与结构准确性方面发挥关键作用。验证后优化循环与指令型评审器亦贡献显著,凸显迭代修正与针对性诊断的重要性。从 CRAFTER 流水线中移除任一组件均会降低整体性能,计划探索或修正层缺失时降幅最大。验证后优化循环与指令型评审器对性能贡献重大,强调迭代修正与针对性诊断的价值。完整 CRAFTER 框架在所有质量维度上均优于所有消融版本,证明其各机制具有互补作用。

研究团队评估了基于 VLM 的裁判在科学图表生成评估中的表现,并将其与人工判断进行对比。结果表明,该裁判与人类偏好达到中等程度的一致性,多数案例与人工裁决相符,且标注者间一致性处于中等水平。这支持在基准测试中将自动化裁判作为人类评估的可靠代理。在盲测成对评估中,自动化裁判与人类多数裁决的一致率达到 72%。该裁判展现出中等程度的标注者间一致性,Cohen's kappa 系数为 0.58。结果证实,该自动化指标能够跨多种图表类型与输入条件准确追踪人类偏好。

该框架在两个科学图表生成基准测试中接受评估,对比对象为独立生成器与 agent 基线,并采用经人类偏好验证的自动化 VLM 裁判以确保评估可靠性。消融实验验证了计划探索、迭代优化与修正编辑协同作用以提升结构准确性与内容保真度,独立成本分析则证实多步骤流水线会带来更高的推理开销。尽管计算需求有所增加,完整系统在多样化输入下仍持续优于所有基线与消融配置。最终,实验表明将自适应规划与迭代修正相结合,可为科学图表合成提供稳健且高质量的解决方案。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供