8 天前

A3S:面向场景文本定位的对抗性语义表示学习

Masato Fujitake
A3S:面向场景文本定位的对抗性语义表示学习
摘要

场景文本定位(Scene-text spotting)是一项同时预测自然场景图像中文本区域并识别其字符的任务,近年来因其广泛的应用前景而受到广泛关注。现有研究主要聚焦于提升文本区域检测的性能,而对文本识别的关注相对不足。因此,尽管检测精度有所提高,端到端的整体识别准确率仍不理想。自然场景图像中的文本通常并非随机字符组合,而是具有语义意义的词组。为此,本文提出一种面向场景文本定位的语义表示对抗学习方法(Adversarial Learning of Semantic Representations for Scene Text Spotting, A3S),旨在提升端到端的识别准确率,包括文本识别能力。A3S在检测到的文本区域内同时预测语义特征,而非仅依赖现有的视觉特征进行文本识别。在多个公开数据集上的实验结果表明,所提出的方法在准确率方面优于现有其他方法。

A3S:面向场景文本定位的对抗性语义表示学习 | 最新论文 | HyperAI超神经