HyperAIHyperAI

Command Palette

Search for a command to run...

文本检测变换器

Xiang Zhang Yongwen Su Subarna Tripathi Zhuowen Tu

摘要

本文提出了一种通用的端到端文本检测与识别框架——TExt Spotting TRansformers(TESTR),该框架基于Transformer架构,适用于自然场景中的文本检测与识别任务。TESTR采用单一编码器配合双解码器结构,联合实现文本框控制点回归与字符识别。与现有大多数方法不同,本方法无需依赖感兴趣区域(Region-of-Interest)操作,也无需依赖启发式规则驱动的后处理流程。在处理弯曲文本框时,TESTR尤其表现出色,因其能够有效应对传统边界框表示在复杂形状文本上的适应性局限。本文提出了适用于贝塞尔曲线与多边形标注的统一控制点表征方式,能够准确描述各类文本实例的几何形态。此外,我们设计了一种基于边界框引导的多边形检测机制(box-to-polygon),进一步提升检测精度。在弯曲文本及任意形状文本数据集上的实验结果表明,所提出的TESTR算法达到了当前最优的性能水平。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供