7 个月前

多任务学习

计算机视觉

Christian Bartz Haojin Yang Christoph Meinel

摘要

在自然场景图像中检测和识别文本是一项具有挑战性且尚未完全解决的任务。近年来，提出了多种新系统，试图至少解决这两个子任务（文本检测和文本识别）中的一个。本文介绍了STN-OCR，这是朝着半监督神经网络进行场景文本识别迈出的一步，该网络可以实现端到端优化。与大多数现有的由多个深度神经网络和若干预处理步骤组成的工作不同，我们提出使用单一的深度神经网络，以半监督的方式从自然图像中学习检测和识别文本。STN-OCR是一个集成了空间变换网络（Spatial Transformer Network）和文本识别网络的网络模型，前者可以学习检测图像中的文本区域，后者则负责对这些已识别的文本区域进行内容识别。我们研究了该模型在一系列不同任务（字符检测与识别以及文本行检测与识别）上的表现。实验结果表明，我们的模型能够在不同的任务上表现出色，而无需对其整体网络结构进行重大修改。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

多任务学习

计算机视觉

Christian Bartz Haojin Yang Christoph Meinel

摘要

在自然场景图像中检测和识别文本是一项具有挑战性且尚未完全解决的任务。近年来，提出了多种新系统，试图至少解决这两个子任务（文本检测和文本识别）中的一个。本文介绍了STN-OCR，这是朝着半监督神经网络进行场景文本识别迈出的一步，该网络可以实现端到端优化。与大多数现有的由多个深度神经网络和若干预处理步骤组成的工作不同，我们提出使用单一的深度神经网络，以半监督的方式从自然图像中学习检测和识别文本。STN-OCR是一个集成了空间变换网络（Spatial Transformer Network）和文本识别网络的网络模型，前者可以学习检测图像中的文本区域，后者则负责对这些已识别的文本区域进行内容识别。我们研究了该模型在一系列不同任务（字符检测与识别以及文本行检测与识别）上的表现。实验结果表明，我们的模型能够在不同的任务上表现出色，而无需对其整体网络结构进行重大修改。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

STN-OCR：用于文本检测和文本识别的单一神经网络 | 论文 | HyperAI超神经