HyperAIHyperAI

Command Palette

Search for a command to run...

PaperFit:面向科学文档的视域内排版优化

Bihui Yu Xinglong Xu Junjie Jiang Jiabei Cheng Caijun Jia Siyuan Li Conghui He Jingxuan Wei Cheng Tan

摘要

编译无误的 LaTeX 手稿并不一定达到了出版标准。生成的 PDF 文件常存在浮动体位置不当、公式溢出、表格缩放不一致、孤行与寡行以及页面平衡性差等问题,迫使作者陷入反复“编译-检查-编辑”的循环。基于规则的工具对渲染后的视觉效果“视而不见”,仅能操作源代码和日志文件。纯文本的大型语言模型(LLM)进行开环文本编辑,无法预测或验证其修改对二维布局的影响。因此,可靠的排版优化需要建立一个包含每次编辑后验证的视觉闭环。我们将此问题形式化为“视觉排版优化”(Visual Typesetting Optimization, VTO)任务,即通过迭代式视觉验证和源级修订,将可编译的 LaTeX 论文转化为视觉效果精良且符合页面预算限制的 PDF,并提出了一个包含五个类别的排版缺陷分类法以指导诊断。我们提出了 PaperFit,这是一种“视觉在环”(vision-in-the-loop)agent,能够迭代渲染页面、诊断缺陷并应用受约束的修复操作。为基准测试 VTO,我们构建了 PaperFit-Bench,包含来自 10 种期刊/会议模板的 200 篇论文,涵盖 13 种不同难度的缺陷类型。大量实验表明,PaperFit 显著优于所有基线方法,证实了弥补从可编译源码到出版就绪 PDF 之间差距需要视觉在环优化,且 VTO 构成了文档自动化流水线中关键缺失的一环。

一句话总结

PaperFit 是一个 vision-in-the-loop agent,通过迭代渲染 LaTeX 手稿来诊断和修复排版缺陷。它通过将视觉排版优化(Visual Typesetting Optimization)形式化为一个经过视觉验证的流水线阶段,将可编译的源代码转换为可直接出版的 PDF,从而在包含 10 种模板和 13 种缺陷类型的 200 篇论文的 PaperFit-Bench 基准上超越了所有基线方法。

核心贡献

  • 将视觉排版优化(VTO)形式化为独立任务,并提出五种排版缺陷分类体系以指导版面诊断。
  • 提出 PaperFit,一种 vision-in-the-loop agent,通过迭代渲染页面、诊断缺陷并应用受限的源码级修复来生成可直接出版的 PDF。
  • 构建 PaperFit-Bench,一个涵盖 10 种学术模板和 13 种缺陷类型的 200 篇论文基准,并通过大量实验证明该 agent 大幅优于所有基线方法。

引言

从 LaTeX 生成可直接出版的 PDF 仍是学术出版中持续存在的瓶颈,因为可编译的源代码经常会产生公式溢出、浮动体错位和页面平衡不均等排版缺陷。以往的自动化尝试未能取得突破,原因在于基于规则的工具对渲染后的视觉效果视而不见,纯文本语言模型在开环状态下运行且无法预测空间后果,而现有的文档理解系统将成功编译视为最终目标而非起点。为弥补这一差距,本文形式化了视觉排版优化,并引入 PaperFit,一种 vision-in-the-loop agent。该 agent 通过迭代渲染页面、依据结构化分类体系诊断缺陷,并应用受限的源码级修复。通过建立闭环验证流水线与综合基准,本文证明了持续的视觉反馈对于将原始 LaTeX 手稿可靠地转化为排版精良、可直接出版的文档至关重要。

数据集

数据集构成与来源

  • 本文引入了 PaperFit-Bench,这是一个包含 200 个 LaTeX 实例的基准,数据源自 arXiv,涵盖自然语言处理、计算机视觉和强化学习等人工智能子领域。
  • 该数据集涵盖 10 种学术出版模板,包括单栏和双栏格式,页数限制在 7 到 14 页之间。
  • 每篇论文平均包含 6.3 幅图表和 5.3 个表格,提供高浮动元素密度以充分检验排版修复能力。

子集详情与难度分级

  • 实例根据并发扰动数量划分为三个经验难度等级:简单(1 至 2 个)、中等(3 至 4 个)和困难(5 至 8 个),比例为 3:4:3。
  • 扰动被归入与视觉排版失效模式相对应的五类缺陷:空间利用(A 类)、浮动体定位(B 类)、表格宽度(C 类)、溢出(D 类)和跨模板迁移(E 类)。
  • 本文指出,难度较高的实例往往将跨模板迁移与其他版面压力因素结合,而较简单的案例仍可能呈现复杂的局部表格或浮动体问题。

数据处理与使用

  • 预处理流水线会移除附录,并过滤掉编译失败或依赖私有宏包的样本。
  • 双重质量控制机制确保每个保留的实例至少包含三幅图表和两个表格。
  • 该数据集仅用于评估,不用于模型训练。每个基准条目将经过系统扰动的 LaTeX 源码与其原始可编译版本配对作为真实标签,从而实现确定性的视觉版面恢复测试。
  • 该基准强调混合扰动场景而非单一的孤立缺陷示例,以更真实地反映实际排版优化挑战。

元数据构建与定稿

  • 本文为每个实例生成全面的元数据,包括扰动清单,记录预期扰动及其在源码层面的具体实现。
  • 该文档层记录了相同高层级缺陷如何由不同的 LaTeX 代码结构引发,使评估过程能够将清单视为意图来源,并将渲染输出视为失败证据。
  • 最终实例需经过标准化编译测试与视觉验证,以确认扰动在版面中成功显现后,基准方可定稿。

方法

本文采用 vision-in-the-loop 优化框架进行视觉排版,其结构为迭代式、证据驱动的搜索过程,整合多源诊断信息以指导受限修复。整体流水线始于输入的 LaTeX 项目 xtx_txt、目标模板 τ\tauτ 以及可选的页数预算 bbb。系统首先编译并渲染文档,生成 PDF PtP_tPt、渲染页面图像 ItI_tIt 以及编译日志 t\ell_tt。基于该输出,系统提取四个互补的证据层:源码层(.tex)提供文档层级、宏定义和保护对象等结构信息;日志层(.log)捕获编译错误、警告和未解析引用;PDF 层(.pdf)输出文档级结果,如最终页数和浮动体位置;页面图像层则揭示仅凭源码或日志数据无法检测到的二维视觉缺陷。

如图 1 所示,这些证据源被融合为统一的缺陷报告 Dt\mathcal{D}_tDt,其中每个缺陷 ddd 表示为结构化记录 (c,o,r,e)(c, o, r, e)(c,o,r,e),分别指定其类别 ccc、位置 ooo、严重程度 rrr 和支持证据 eee。该缺陷报告作为修复阶段的接口,严重程度决定修复优先级。修复策略由偏好配置文件 π\piπ 控制,强制执行分层的修复动作优先级。原生版面动作(如浮动体重新锚定、公式拆分以及使用宽度感知环境重构表格)优先采用,因其能解决根本问题且不引入副作用。间距调整动作(如局部 \vspace\vspace\vspace 调整)受到限制,且需明确说明理由。伪修复(如 \resizebox\resizebox\resizebox\pagebreak\pagebreak\pagebreak)被禁止作为主要修复策略,因其可能导致排版失真或转移缺陷。

修复选择过程具备缺陷感知能力,根据未解决缺陷的严重程度和类别对动作进行优先级排序。例如,编译错误优先处理,其次为溢出、浮动体定位、表格一致性、空间利用和跨模板不匹配。在每次迭代中,系统选择优先级最高的未解决缺陷,并应用其类别中排名最高的原生版面策略。若无原生版面选项可用,则可在受控条件下尝试受限的间距调整动作。在执行任何修复前,系统会对受保护内容(如图表、标题、标签、引用和参考文献条目)的数量和位置进行快照记录,并验证修复过程中无任何内容被删除、位移或篡改。该内容保护机制确保了学术完整性。

当原生版面修复用尽且仍存在次要问题(如孤行/寡行或末尾页面稀疏)时,系统允许进行有界的语义润色,即在不改变事实声明或结果的前提下进行最小幅度的措辞调整。该回退机制仅在原生版面选项失效时触发,且仍受内容保护机制约束。每次修复后,系统会重新编译并渲染整个文档以再次检查所有页面,因为 LaTeX 编辑可能触发非局部的版面级联反应。每轮迭代后的状态表示为 St=(xt,t,Pt,It,Dt,Ht,at)S_t = (x_t, \ell_t, P_t, I_t, \mathcal{D}_t, \mathcal{H}_t, a_t)St=(xt,t,Pt,It,Dt,Ht,at),其中 Ht\mathcal{H}_tHt 指示硬约束满足情况。该过程遵循六步循环:编译并收集日志;解析确定性信号;渲染页面;构建缺陷记录;应用受限修复;重新编译/渲染。随后,清单门控验证模块对结果进行评估,输出三种决策之一:DONE(满足所有约束)、CONTINUE(安全但仍有问题)或 BLOCKED(修复不安全或不可行)。DONE 条件要求成功编译与渲染、无阻塞性缺陷、满足页数预算以及受保护内容完好无损。这一结构化闭环系统实现了针对科学文档的精确、可审计且侵入性最小的视觉排版优化。

实验

评估设置在一个精心策划的基准上,通过程序化检查与基于 VLM 的视觉评估,将 PaperFit 与涵盖基于规则、纯文本和视觉反馈范式的六种基线方法进行对比。对比实验验证了尽管文本与日志反馈无法解决二维版面失效,且单轮视觉编辑难以处理非局部级联反应,但朴素的多轮视觉修复仍缺乏精确页面控制所需的结构规划。额外的后端与相关性研究表明,agent 的架构设计比底层语言模型更能驱动性能提升,且自动化评分与人工判断高度一致。定性案例分析与错误检查最终证实,可靠的排版优化依赖于具备明确缺陷跟踪与验收门控的闭环系统,尽管复杂的多缺陷场景与严格的全局页数限制仍是显著挑战。

本文在 LaTeX 排版优化基准上评估了多种方法,比较了它们在技术正确性与视觉质量指标上的表现。PaperFit 在视觉质量和页数预算遵循度上取得最高分,同时保持完美的编译与渲染成功率,优于依赖单轮反馈或朴素多轮视觉编辑且缺乏结构化修复过程的基线方法。PaperFit 实现了最高的视觉质量与页数预算命中率,并维持完美的编译和渲染成功率。仅使用文本或单轮视觉反馈的方法在视觉质量和页面控制方面提升有限。VisualMR 在技术可靠性上有所改进,但与 PaperFit 相比,在页数预算遵循和视觉缺陷解决方面仍存在不足。

该实验使用编译成功率、渲染成功率、VLM 评分、胜率和页面命中率等指标,评估了 PaperFit 框架内不同的语言模型后端。结果表明,所有后端均实现了较高的编译与渲染成功率,各模型间的 VLM 评分和胜率差异极小。某一后端展现出最高胜率,另一后端则达到完美的页面命中率,表明不同模型间性能表现一致。所有后端均保持高编译与渲染成功率,整体性能无显著差异。各后端胜率略有波动,其中一款取得最高分。页面命中率普遍较高,某后端完全符合目标页数预算。

本文在专为视觉排版优化设计的基准上评估了 PaperFit 方法,该基准涉及修复 LaTeX 文档以符合出版标准。该基准需要包含渲染页面图像的多模态输入,并支持迭代修复流程,从而区别于以往专注于公式重建或代码生成的工作。PaperFit 通过整合结构化诊断、受限修复策略与清单门控验证实现卓越性能,优于缺乏这些特性的基线方法。PaperFit-Bench 专为视觉排版修复设计,需同时具备多模态输入与迭代修复流程。以往基准侧重于公式重建或代码生成等任务,而 PaperFit-Bench 面向可直接出版文档的修复。PaperFit 凭借其他方法所不具备的结构化诊断与受限修复策略,性能超越基线方法。

本文评估了 PaperFit 框架中不同语言模型后端在各类学术出版场景中的表现。结果表明,所有模型均获得较高的视觉质量分数,模型间差异极小,说明性能提升主要源于框架设计而非特定模型。VLM 评分在所有场景与模型中均保持强劲,证明了该方法的有效性与鲁棒性。所有语言模型在不同场景下均取得高且一致的视觉质量分数,体现了框架的鲁棒性。模型间性能差异微乎其微,表明改进主要归功于 PaperFit 框架而非特定后端。VLM 评分在各场景间保持稳定,证明该方法在不同学术模板与格式要求下具有良好的泛化能力。

本文使用兼顾技术正确性与视觉质量的基准,评估了多种视觉排版优化方法。通过对比各方法处理多源反馈、迭代修复与结构化验证的能力,PaperFit 在视觉质量与约束满足度之间取得了最佳平衡。结果强调,尽管视觉反馈能够改善输出结果,但具备明确缺陷跟踪与验证门控的系统化修复流程对于生成可靠的可出版文档至关重要。PaperFit 通过整合结构化诊断与验证门控,实现了最佳的视觉质量与约束满足度。缺乏系统化修复流程时,仅靠视觉反馈不足以实现可靠的排版优化。所有方法均保持高内容保真度,表明性能提升源于版面修复而非语义改动。

本文在要求迭代式多模态修复以实现可出版版面的 LaTeX 排版基准上,评估了多种方法与语言模型后端。这些实验验证了结构化诊断与清单门控验证的有效性,证明 PaperFit 持续优于依赖非结构化编辑或单轮反馈的基线方法,后者通常在视觉质量与页面约束方面表现不佳。此外,跨后端与跨场景测试证实,性能提升源于框架的系统化架构而非特定底层模型,凸显了该方法在可靠文档优化中的鲁棒性与泛化能力。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供