7 个月前

计算机视觉

卷积神经网络

计算机视觉

Jue Wang Xue Bai Zhixin Shu Ke Ma Dimitris Samaras

摘要

由于移动摄像头的广泛普及，拍摄文档图像已成为数字化和记录纸质文档的常用方式。为了便于文本识别，当纸质文档发生折叠或弯曲时，通常需要将其数字平铺（即校正为平面图像）。本文提出了一种基于学习的首个方法，以实现这一目标。我们设计了一种带有中间监督的级联U-Net结构，直接预测从畸变图像到其校正版本的前向映射关系。由于难以获取大规模真实世界中带有真实变形标签的数据，我们通过扭曲无畸变的文档图像，构建了一个包含约十万张图像的合成数据集。该网络在该数据集上结合多种数据增强策略进行训练，以提升其泛化能力。此外，我们还建立了一个涵盖多种真实场景条件的综合性基准测试集。我们在该基准上对所提模型进行了定量与定性评估，并与以往的非学习型方法进行了对比，验证了其优越性能。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

计算机视觉

卷积神经网络

计算机视觉

Jue Wang Xue Bai Zhixin Shu Ke Ma Dimitris Samaras

摘要

由于移动摄像头的广泛普及，拍摄文档图像已成为数字化和记录纸质文档的常用方式。为了便于文本识别，当纸质文档发生折叠或弯曲时，通常需要将其数字平铺（即校正为平面图像）。本文提出了一种基于学习的首个方法，以实现这一目标。我们设计了一种带有中间监督的级联U-Net结构，直接预测从畸变图像到其校正版本的前向映射关系。由于难以获取大规模真实世界中带有真实变形标签的数据，我们通过扭曲无畸变的文档图像，构建了一个包含约十万张图像的合成数据集。该网络在该数据集上结合多种数据增强策略进行训练，以提升其泛化能力。此外，我们还建立了一个涵盖多种真实场景条件的综合性基准测试集。我们在该基准上对所提模型进行了定量与定性评估，并与以往的非学习型方法进行了对比，验证了其优越性能。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供