7 个月前

卷积神经网络

计算机视觉

Wenhai Wang∗1, Enze Xie∗2,4, Xiaoge Song1, Yuhang Zang3, Wanjia Wang2, Tong Lu†1, Gang Yu4, and Chunhua Shen5

摘要

场景文字检测是场景文字识别系统中的一个重要步骤，近年来随着卷积神经网络的发展取得了快速进步。然而，仍存在两个主要挑战阻碍其在实际应用中的部署。第一个问题是速度与精度之间的权衡。第二个问题是建模任意形状的文字实例。最近，一些方法被提出以解决任意形状文字检测的问题，但这些方法很少考虑整个流程的速度，在实际应用中可能会有所不足。本文提出了一种高效且准确的任意形状文字检测器，称为像素聚合网络（Pixel Aggregation Network, PAN），该网络配备了一个低计算成本的分割头和一个可学习的后处理模块。具体而言，分割头由特征金字塔增强模块（Feature Pyramid Enhancement Module, FPEM）和特征融合模块（Feature Fusion Module, FFM）组成。FPEM是一个可级联的U形模块，可以引入多层级信息以指导更好的分割。FFM则可以将不同深度的FPEM提供的特征汇聚成最终用于分割的特征。可学习的后处理通过像素聚合（Pixel Aggregation, PA）实现，可以通过预测的相似度向量精确地聚合文字像素。在多个标准基准上的实验验证了所提出的PAN的优势。值得注意的是，我们的方法在CTW1500数据集上可以达到每秒84.2帧（FPS）的情况下获得79.9%的竞争性F值。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

卷积神经网络

计算机视觉

Wenhai Wang∗1, Enze Xie∗2,4, Xiaoge Song1, Yuhang Zang3, Wanjia Wang2, Tong Lu†1, Gang Yu4, and Chunhua Shen5

摘要

场景文字检测是场景文字识别系统中的一个重要步骤，近年来随着卷积神经网络的发展取得了快速进步。然而，仍存在两个主要挑战阻碍其在实际应用中的部署。第一个问题是速度与精度之间的权衡。第二个问题是建模任意形状的文字实例。最近，一些方法被提出以解决任意形状文字检测的问题，但这些方法很少考虑整个流程的速度，在实际应用中可能会有所不足。本文提出了一种高效且准确的任意形状文字检测器，称为像素聚合网络（Pixel Aggregation Network, PAN），该网络配备了一个低计算成本的分割头和一个可学习的后处理模块。具体而言，分割头由特征金字塔增强模块（Feature Pyramid Enhancement Module, FPEM）和特征融合模块（Feature Fusion Module, FFM）组成。FPEM是一个可级联的U形模块，可以引入多层级信息以指导更好的分割。FFM则可以将不同深度的FPEM提供的特征汇聚成最终用于分割的特征。可学习的后处理通过像素聚合（Pixel Aggregation, PA）实现，可以通过预测的相似度向量精确地聚合文字像素。在多个标准基准上的实验验证了所提出的PAN的优势。值得注意的是，我们的方法在CTW1500数据集上可以达到每秒84.2帧（FPS）的情况下获得79.9%的竞争性F值。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供