2ヶ月前

自動修正による堅牢なシーンテキスト認識

Baoguang Shi; Xinggang Wang; Pengyuan Lyu; Cong Yao; Xiang Bai
自動修正による堅牢なシーンテキスト認識
要約

自然画像中のテキスト認識は、未解決の問題が多い困難な課題である。ドキュメント内の単語とは異なり、自然画像内の単語は、透視変形や曲線的な文字配置などによって不規則な形状を有することが多い。本研究では、不規則なテキストに堅牢に対応する認識モデルRARE(Robust text recognizer with Automatic REctification)を提案する。RAREは特別に設計された深層ニューラルネットワークで、空間変換ネットワーク(Spatial Transformer Network: STN)と系列認識ネットワーク(Sequence Recognition Network: SRN)から構成されている。テスト時には、予測された薄板スプライン変換(Thin-Plate-Spline: TPS)により画像が最初に補正され、その後のSRNがより「読みやすい」画像として処理される。SRNは系列認識アプローチを通じてテキストを認識する。我々はこのモデルが透視変形テキストや曲線テキストなどの複数種類の不規則なテキストを認識できることを示す。RAREはエンドツーエンドで学習可能であり、訓練および実際のシステムへの展開には画像と関連するテキストラベルのみが必要であるため、非常に便利である。いくつかのベンチマークでの最先端または競争力のある性能は、提案したモデルの効果性を十分に証明している。

自動修正による堅牢なシーンテキスト認識 | 最新論文 | HyperAI超神経