
摘要
由于移动摄像头的广泛普及,拍摄文档图像已成为数字化和记录纸质文档的常用方式。为了便于文本识别,当纸质文档发生折叠或弯曲时,通常需要将其数字平铺(即校正为平面图像)。本文提出了一种基于学习的首个方法,以实现这一目标。我们设计了一种带有中间监督的级联U-Net结构,直接预测从畸变图像到其校正版本的前向映射关系。由于难以获取大规模真实世界中带有真实变形标签的数据,我们通过扭曲无畸变的文档图像,构建了一个包含约十万张图像的合成数据集。该网络在该数据集上结合多种数据增强策略进行训练,以提升其泛化能力。此外,我们还建立了一个涵盖多种真实场景条件的综合性基准测试集。我们在该基准上对所提模型进行了定量与定性评估,并与以往的非学习型方法进行了对比,验证了其优越性能。