7 个月前

计算机视觉

Minghui Liao Baoguang Shi Xiang Bai

摘要

场景文本检测是场景文本识别系统中的一个重要步骤，也是一个具有挑战性的问题。与一般物体检测不同，场景文本检测的主要挑战在于自然图像中文字的任意方向、小尺寸以及显著变化的宽高比。本文提出了一种端到端可训练的快速场景文本检测器，命名为TextBoxes++，该检测器能够在单次网络前向传播中以高精度和高效性检测任意方向的场景文本。除了高效的非极大值抑制外，无需其他后处理步骤。我们已在四个公开数据集上对提出的TextBoxes++进行了评估。在所有实验中，TextBoxes++在文本定位精度和运行时间方面均优于竞争方法。具体而言，对于1024×1024分辨率的ICDAR 2015偶发文本图像，TextBoxes++实现了每秒11.6帧（fps）下的F值为0.817；对于768×768分辨率的COCO-Text图像，实现了每秒19.8帧下的F值为0.5591。此外，结合文本识别器后，TextBoxes++在流行的基准测试中显著优于最先进的方法，用于单词定位和端到端文本识别任务。代码可在以下地址获取：https://github.com/MhLiao/TextBoxes_plusplus

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

计算机视觉

Minghui Liao Baoguang Shi Xiang Bai

摘要

场景文本检测是场景文本识别系统中的一个重要步骤，也是一个具有挑战性的问题。与一般物体检测不同，场景文本检测的主要挑战在于自然图像中文字的任意方向、小尺寸以及显著变化的宽高比。本文提出了一种端到端可训练的快速场景文本检测器，命名为TextBoxes++，该检测器能够在单次网络前向传播中以高精度和高效性检测任意方向的场景文本。除了高效的非极大值抑制外，无需其他后处理步骤。我们已在四个公开数据集上对提出的TextBoxes++进行了评估。在所有实验中，TextBoxes++在文本定位精度和运行时间方面均优于竞争方法。具体而言，对于1024×1024分辨率的ICDAR 2015偶发文本图像，TextBoxes++实现了每秒11.6帧（fps）下的F值为0.817；对于768×768分辨率的COCO-Text图像，实现了每秒19.8帧下的F值为0.5591。此外，结合文本识别器后，TextBoxes++在流行的基准测试中显著优于最先进的方法，用于单词定位和端到端文本识别任务。代码可在以下地址获取：https://github.com/MhLiao/TextBoxes_plusplus

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供