11 天前

用于快速高效场景文本识别的视觉Transformer

Rowel Atienza
用于快速高效场景文本识别的视觉Transformer
摘要

场景文本识别(Scene Text Recognition, STR)使计算机能够识别自然场景中的文本信息,例如物品标签、路标和操作说明。STR帮助机器做出智能决策,如选择应抓取的物体、确定行进方向,以及判断下一步操作。在现有STR研究中,主要关注点始终是识别准确率,而对速度和计算效率的重视则相对不足,尤其是在能源受限的移动设备上,这两者同样至关重要。本文提出ViTSTR,一种基于计算与参数高效视觉Transformer(Vision Transformer, ViT)的简单单阶段STR模型架构。在与强基准方法TRBA(准确率为84.3%)相当的条件下,我们的小型ViTSTR模型实现了82.6%的准确率(使用数据增强后达84.2%),在保持仅43.4%参数量和42.2%浮点运算量(FLOPS)的前提下,推理速度提升2.4倍。其极小版本ViTSTR在仅使用10.9%参数量和11.9% FLOPS的情况下,达到80.3%的准确率(数据增强后为82.1%),速度提升达2.5倍。在引入数据增强后,我们的基础版ViTSTR在准确率上达到85.2%(未增强时为83.7%),速度提升2.3倍,尽管其参数量和FLOPS分别增加了73.2%和61.5%,但仍显著优于TRBA。从性能权衡角度看,几乎所有ViTSTR的配置均处于或接近当前前沿,能够同时实现高准确率、高速度与高计算效率的最优平衡。

用于快速高效场景文本识别的视觉Transformer | 最新论文 | HyperAI超神经