AI在GSoC项目中学习解析历史文献
8 days ago
在Google Summer of Code(GSoC)项目中,我致力于开发一个“数字抄写员”系统,目标是训练AI从历史文献中识别文本。在文本检测环节,我采用了CRAFT模型,该模型在识别复杂布局的文本方面表现优异,尤其在处理模糊、倾斜或破损的文本图像时,比PSENet、PaddleOCR和PyTesseract等其他模型更具精度和稳定性。 在检测到文本区域后,我面临如何将每个文本框与对应的转录文本匹配的问题。为解决这一难题,我使用了经过西班牙语优化的PyTesseract模型提取文本,并通过文本相似度匹配进行比对,设定0.8的相似度阈值以确保数据准确性。虽然仅能匹配约50%的文本框,但这种方式有效避免了错误标注,最终构建出约4800对高质量的文本-标签数据集。 为了训练生成对抗网络(GAN)以生成手写体,我设计了合成模板,使用RomanAntique字体渲染每个单词,形成64×128的灰度图像,并将其组合成256×256的输入图像。在训练前,我手动清理数据集,去除错误样本和重复内容,以提升模型性能。 项目分为两部分:第一部分是基于GAN的风格迁移模型,采用Pix2Pix架构,通过结合BCE和L1损失函数训练生成器,确保生成图像既逼真又与目标图像高度相似;第二部分是通过程序化方法模拟历史印刷的物理特征,如纸张老化、墨水褪色等,生成高度逼真的合成文本页面,同时可自动提取文本框信息,非常适合用于训练OCR系统。最终,模型成功生成了高质量的手写图像,为OCR训练提供了有力支持。