Command Palette

Search for a command to run...

1 个月前

POINTS-Reader:面向文档转换的视觉-语言模型蒸馏-free适配

Yuan Liu Zhongyin Zhao Le Tian Haicheng Wang Xubing Ye et al

POINTS-Reader:面向文档转换的视觉-语言模型蒸馏-free适配

摘要

高质量的标注数据对于训练高精度的文档转换模型至关重要,尤其是在表格、公式和多栏文本等复杂格式的领域中。然而,人工标注不仅成本高昂且耗时,而现有模型自动标注的方法在处理此类复杂场景时又往往缺乏准确性。因此,通过知识蒸馏方式利用教师模型输出来训练学生模型,在实际应用中往往会显著限制其性能表现。本文提出了一种完全自动化、无需知识蒸馏的两阶段框架,用于构建高质量的文档抽取数据集与模型,使其能够有效应对多样化的文档格式与版式。在第一阶段,我们提出一种生成大规模、多样化合成数据的方法,使模型能够在统一格式下提取关键元素,并具备较强的初始性能。在第二阶段,我们设计了一种自提升机制,进一步将基于合成数据预训练的模型适配至真实场景文档。具体而言,首先利用微调后的模型对真实文档进行自动标注,随后采用一系列过滤策略验证标注质量,最后在经过验证的数据集上重新训练模型。通过迭代重复这一过程,模型的转换能力与生成数据的质量均得以持续提升。基于此框架,我们训练出公开的 POINTS-1.5 模型,得到 POINTS-Reader,其性能超越了众多现有公开及专有模型,且在参数规模相当或更大的情况下表现更优。该模型已公开发布,获取地址见本文链接。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供