11 天前
CDistNet:用于鲁棒文本识别的多领域字符距离感知方法
Tianlun Zheng, Zhineng Chen, Shancheng Fang, Hongtao Xie, Yu-Gang Jiang

摘要
基于Transformer的编码器-解码器框架在场景文本识别领域日益流行,主要因其能够自然地融合来自视觉与语义两个域的识别线索。然而,近期研究表明,这两类线索在实际任务中并不总是能够良好对齐,尤其在面对罕见字形等困难文本时,特征与字符之间容易出现错位。为此,已有研究引入字符位置等约束以缓解该问题。尽管取得一定成效,视觉与语义信息仍被分别建模,二者仅以松散方式关联。本文提出一种新型模块——多域字符距离感知模块(Multi-Domain Character Distance Perception, MDCDP),旨在建立视觉与语义相关联的位置嵌入。MDCDP利用位置嵌入通过交叉注意力机制同时查询视觉特征与语义特征,将两类线索融合至位置分支中,生成一种具备内容感知能力的嵌入表示,能够有效捕捉字符间距与方向变化、字符间的语义关联性,以及连接两类信息的潜在线索。这些综合特性被统称为“多域字符距离”。基于该模块,我们构建了CDistNet,通过堆叠多个MDCDP实现逐步精细化的距离建模。该设计使得在面对各种识别挑战时,特征与字符之间的对齐关系仍能被有效建立。我们在十个具有挑战性的公开数据集以及我们自建的两组增强数据集上对CDistNet进行了验证。实验结果表明,CDistNet表现极为出色:不仅在标准基准测试中位居前列,而且在存在严重文本形变、语言支持薄弱及罕见字符布局等复杂场景的真实与增强数据集上,显著优于近期主流方法。代码已开源,地址为:https://github.com/simplify23/CDistNet。