2ヶ月前

自己監督型文字間蒸留法によるテキスト認識

Tongkun Guan; Wei Shen; Xue Yang; Qi Feng; Zekun Jiang; Xiaokang Yang
自己監督型文字間蒸留法によるテキスト認識
要約

複雑なテキスト画像(例えば、不規則な構造、低解像度、重い遮蔽、不均一な照明)を処理する際、既存の教師ありテキスト認識手法は大量のデータを必要とします。これらの手法は大規模な合成テキスト画像を使用して注釈付き実画像への依存度を低下させていますが、ドメインギャップにより認識性能が制限されることがあります。したがって、自己教師あり学習によってラベルの付いていない実画像から堅牢なテキスト特徴表現を探索することは有効な解決策です。しかし、既存の自己教師ありテキスト認識手法は視覚的な特徴を水平軸に沿って粗く分割することで系列対系列の表現学習を行っているため、大きな幾何学的な拡張が系列対系列の特徴の一貫性を損なう可能性があり、拡張の柔軟性が制限されています。この課題に着目し、私たちは新しい自己教師ありキャラクター対キャラクター蒸留法(Character-to-Character Distillation method, CCD)を提案します。CCDは多様な拡張を可能にし、一般的なテキスト表現学習を促進します。具体的には、自己教師あり文字セグメンテーションモジュールを設計することでラベルの付いていない実画像の文字構造を明確に抽出します。その後、CCDは画像間で2つの拡張ビュー間の変換行列を使用して局所文字の多様性を容易に豊かにしつつ、それらのペアワイズアライメントを維持します。実験結果はCCDが最先端の成果を得ていることを示しており、テキスト認識では平均1.38%、テキストセグメンテーションでは1.7%、テキスト超解像度では0.24 dB (PSNR) および0.0321 (SSIM) の性能向上が確認されました。コードはhttps://github.com/TongkunGuan/CCD で公開されています。

自己監督型文字間蒸留法によるテキスト認識 | 最新論文 | HyperAI超神経