
摘要
如今,在非结构化环境中使用手持设备拍摄文档图像已成为一种常见做法。然而,这类“随意”拍摄的文档图像通常难以用于自动信息提取,主要原因在于纸张的物理形变,以及拍摄时相机角度和光照条件的多样性。本文提出了一种名为DewarpNet的深度学习方法,用于从单张图像中实现文档图像的去扭曲(unwarping)。我们的核心洞察是:文档纸张的三维几何结构不仅决定了其纹理的扭曲形态,也影响了光照效果。因此,DewarpNet的创新之处在于在端到端的框架中显式建模文档纸张的三维形状。此外,我们还构建了迄今为止规模最大、最全面的文档图像去扭曲数据集——Doc3D。该数据集包含多种真实标注信息,包括三维形状、表面法向量、UV映射图、反照率图像(albedo image)等。基于Doc3D进行训练,DewarpNet在多项定性和定量评估中均取得了当前最优的性能表现。同时,该网络显著提升了捕获文档图像的OCR识别效果,平均字符错误率(CER)降低了42%。相关代码与数据集均已公开发布。