2 个月前

DewarpNet：基于堆叠三维与二维回归网络的单图像文档去畸变

{ Roy Shilkrot, Dimitris Samaras, Zhixin Shu, Ke Ma, Sagnik Das}

摘要

如今，在非结构化环境中使用手持设备拍摄文档图像已成为一种常见做法。然而，这类“随意”拍摄的文档图像通常难以用于自动信息提取，主要原因在于纸张的物理形变，以及拍摄时相机角度和光照条件的多样性。本文提出了一种名为DewarpNet的深度学习方法，用于从单张图像中实现文档图像的去扭曲（unwarping）。我们的核心洞察是：文档纸张的三维几何结构不仅决定了其纹理的扭曲形态，也影响了光照效果。因此，DewarpNet的创新之处在于在端到端的框架中显式建模文档纸张的三维形状。此外，我们还构建了迄今为止规模最大、最全面的文档图像去扭曲数据集——Doc3D。该数据集包含多种真实标注信息，包括三维形状、表面法向量、UV映射图、反照率图像（albedo image）等。基于Doc3D进行训练，DewarpNet在多项定性和定量评估中均取得了当前最优的性能表现。同时，该网络显著提升了捕获文档图像的OCR识别效果，平均字符错误率（CER）降低了42%。相关代码与数据集均已公开发布。