17 天前

用于文档图像去畸变的门控与分叉堆叠U-Net模块

Hmrishav Bandyopadhyay, Tanmoy Dasgupta, Nibaran Das, Mita Nasipuri
用于文档图像去畸变的门控与分叉堆叠U-Net模块
摘要

通过手持设备拍摄文档图像,是记录文档最简便且常用的方法之一。然而,此类图像常因拍摄角度、镜头畸变等因素产生难以消除的几何失真。为此,我们提出一种基于监督学习的门控式分叉级联U-Net模块(Gated and Bifurcated Stacked U-Net),用于预测去畸变网格,并从输入图像重建无畸变图像。尽管网络在合成畸变文档图像上进行训练,但评估结果均基于真实世界图像。本方法的创新之处不仅在于对U-Net结构进行分叉设计,有效避免网格坐标之间的相互干扰,还在于引入门控机制,显著增强了模型对边界及细微线条等细节的捕捉能力。我们提出的端到端处理流程,在仅使用此前方法所用数据量8%的情况下,即在DocUNet数据集上实现了当前最优的性能表现。