2ヶ月前

AON: 任意方向のテキスト認識に向けて

Zhanzhan Cheng; Yangliu Xu; Fan Bai; Yi Niu; Shiliang Pu; Shuigeng Zhou
AON: 任意方向のテキスト認識に向けて
要約

自然画像からテキストを認識することは、その多様な応用可能性により、コンピュータビジョンの研究におけるホットトピックとなっています。光学的文字認識(OCR)に関する数十年にわたる持続的な研究にもかかわらず、自然画像からのテキスト認識は依然として困難な課題です。これは、シーン内のテキストがしばしば不規則な(例えば曲線状、任意の方向性や深刻な歪みを持つ)配置であり、これらの問題が文献で十分に対処されていないためです。既存の文字認識手法は主に規則的な(水平かつ正面の)テキストに対して効果的ですが、不規則なテキストを扱うために単純に一般化することはできません。本論文では、不規則なテキストの深層特徴を直接捉える任意方向ネットワーク(Arbitrary Orientation Network: AON)を開発し、これをアテンションベースのデコーダと組み合わせて文字列を生成します。このネットワーク全体は、画像と単語レベルの注釈のみを使用してエンドツーエンドで学習することができます。CUTE80, SVT-Perspective, IIIT5k, SVT および ICDAR データセットを含む様々なベンチマークでの広範な実験結果から、提案された AON を基盤とする手法は不規則データセットにおいて最先端の性能を達成しており、規則的データセットにおいても主要な既存手法と同等の性能を示しています。

AON: 任意方向のテキスト認識に向けて | 最新論文 | HyperAI超神経