16 天前

DocUNet:基于堆叠U-Net的文档图像去畸变

{Jue Wang, Xue Bai, Zhixin Shu, Ke Ma, Dimitris Samaras}
DocUNet:基于堆叠U-Net的文档图像去畸变
摘要

由于移动摄像头的广泛普及,拍摄文档图像已成为数字化和记录纸质文档的常用方式。为了便于文本识别,当纸质文档发生折叠或弯曲时,通常需要将其数字平铺(即校正为平面图像)。本文提出了一种基于学习的首个方法,以实现这一目标。我们设计了一种带有中间监督的级联U-Net结构,直接预测从畸变图像到其校正版本的前向映射关系。由于难以获取大规模真实世界中带有真实变形标签的数据,我们通过扭曲无畸变的文档图像,构建了一个包含约十万张图像的合成数据集。该网络在该数据集上结合多种数据增强策略进行训练,以提升其泛化能力。此外,我们还建立了一个涵盖多种真实场景条件的综合性基准测试集。我们在该基准上对所提模型进行了定量与定性评估,并与以往的非学习型方法进行了对比,验证了其优越性能。

DocUNet:基于堆叠U-Net的文档图像去畸变 | 最新论文 | HyperAI超神经