6 个月前

自然语言处理

计算机视觉

Mingxin Huang Yuliang Liu Zhenghao Peng Chongyu Liu Dahua Lin Shenggao Zhu Nicholas Yuan Kai Ding Lianwen Jin

摘要

近年来，端到端场景文本定位（scene text spotting）因成功挖掘文本检测与识别任务之间的内在协同关系而受到广泛关注。然而，当前最先进的方法通常仅通过共享主干网络来融合检测与识别，未能直接利用两项任务之间的特征交互优势。为此，本文提出一种新型端到端场景文本定位框架——SwinTextSpotter。该框架采用基于动态头（dynamic head）的Transformer编码器作为检测器，并引入一种新颖的“识别转换”（Recognition Conversion）机制，通过识别损失显式引导文本定位，从而实现检测与识别任务的统一建模。该设计简洁高效，无需额外的文本校正模块，也无需字符级标注即可处理任意形状文本。在多方向文本数据集RoIC13和ICDAR 2015、任意形状文本数据集Total-Text和CTW1500，以及多语言数据集ReCTS（中文）和VinText（越南语）上的定性与定量实验表明，SwinTextSpotter显著优于现有方法。代码已开源，地址为：https://github.com/mxin262/SwinTextSpotter。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

自然语言处理

计算机视觉

Mingxin Huang Yuliang Liu Zhenghao Peng Chongyu Liu Dahua Lin Shenggao Zhu Nicholas Yuan Kai Ding Lianwen Jin

摘要

近年来，端到端场景文本定位（scene text spotting）因成功挖掘文本检测与识别任务之间的内在协同关系而受到广泛关注。然而，当前最先进的方法通常仅通过共享主干网络来融合检测与识别，未能直接利用两项任务之间的特征交互优势。为此，本文提出一种新型端到端场景文本定位框架——SwinTextSpotter。该框架采用基于动态头（dynamic head）的Transformer编码器作为检测器，并引入一种新颖的“识别转换”（Recognition Conversion）机制，通过识别损失显式引导文本定位，从而实现检测与识别任务的统一建模。该设计简洁高效，无需额外的文本校正模块，也无需字符级标注即可处理任意形状文本。在多方向文本数据集RoIC13和ICDAR 2015、任意形状文本数据集Total-Text和CTW1500，以及多语言数据集ReCTS（中文）和VinText（越南语）上的定性与定量实验表明，SwinTextSpotter显著优于现有方法。代码已开源，地址为：https://github.com/mxin262/SwinTextSpotter。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供