17 天前

DewarpNet:基于堆叠三维与二维回归网络的单图像文档去畸变

{ Roy Shilkrot, Dimitris Samaras, Zhixin Shu, Ke Ma, Sagnik Das}
DewarpNet:基于堆叠三维与二维回归网络的单图像文档去畸变
摘要

如今,在非结构化环境中使用手持设备拍摄文档图像已成为一种常见做法。然而,这类“随意”拍摄的文档图像通常难以用于自动信息提取,主要原因在于纸张的物理形变,以及拍摄时相机角度和光照条件的多样性。本文提出了一种名为DewarpNet的深度学习方法,用于从单张图像中实现文档图像的去扭曲(unwarping)。我们的核心洞察是:文档纸张的三维几何结构不仅决定了其纹理的扭曲形态,也影响了光照效果。因此,DewarpNet的创新之处在于在端到端的框架中显式建模文档纸张的三维形状。此外,我们还构建了迄今为止规模最大、最全面的文档图像去扭曲数据集——Doc3D。该数据集包含多种真实标注信息,包括三维形状、表面法向量、UV映射图、反照率图像(albedo image)等。基于Doc3D进行训练,DewarpNet在多项定性和定量评估中均取得了当前最优的性能表现。同时,该网络显著提升了捕获文档图像的OCR识别效果,平均字符错误率(CER)降低了42%。相关代码与数据集均已公开发布。