15日前

CDistNet:ロバストなテキスト認識のためのマルチドメイン文字距離の把握

Tianlun Zheng, Zhineng Chen, Shancheng Fang, Hongtao Xie, Yu-Gang Jiang
CDistNet:ロバストなテキスト認識のためのマルチドメイン文字距離の把握
要約

視覚と意味の両領域からの認識情報を自然に統合できる点から、Transformerベースのエンコーダ-デコーダフレームワークは、シーンテキスト認識分野でますます注目を集めている。しかし、最近の研究では、これらの二種類の情報が常に適切に整合されているわけではないことが示されており、特に珍しい形状を持つテキストなど困難な状況では、特徴量と文字の対応がずれてしまうことがある。この問題を緩和するため、文字位置に関する制約が導入されているが、それでも視覚的特徴と意味的情報は依然として独立してモデル化されており、それらの関連性は限定的である。本論文では、視覚的かつ意味的に関連した位置埋め込みを構築するための新しいモジュールである「マルチドメイン文字距離感知モジュール(Multi-Domain Character Distance Perception, MDCDP)」を提案する。MDCDPは、クロスアテンション機構に従い、位置埋め込みを用いて視覚的特徴と意味的特徴の両方を照合する。この仕組みにより、二種類の情報が位置ブランチに統合され、文字間隔や方向の変化、文字の意味的類似性、そして両情報間を結ぶ手がかりを適切に捉えるコンテンツに依存する埋め込みが生成される。これらを統合的に表現したものが「マルチドメイン文字距離」となる。本研究では、複数のMDCDPをスタックして、段階的に高精度な距離モデリングを実現するCDistNetを構築した。これにより、さまざまな認識困難な状況下でも、特徴量と文字の対応付けが良好に維持される。CDistNetは、10の挑戦的な公開データセットおよび著者らが独自に作成した2種類の拡張データセット上で検証された。実験結果から、CDistNetは高い競争力を示した。標準ベンチマークにおいてトップクラスの性能を達成するだけでなく、著しく歪みが生じる実際のテキストや、言語的サポートが乏しく、稀な文字配置を含む拡張データセットにおいても、最近の代表的な手法を明確な差で上回った。コードはGitHubにて公開されている:https://github.com/simplify23/CDistNet。

CDistNet:ロバストなテキスト認識のためのマルチドメイン文字距離の把握 | 最新論文 | HyperAI超神経