11日前

UTRNet:印刷文書における高解像度ウルドゥー語テキスト認識

Abdur Rahman, Arjun Ghosh, Chetan Arora
UTRNet:印刷文書における高解像度ウルドゥー語テキスト認識
要約

本稿では、高解像度かつマルチスケールの意味特徴抽出を用いた印刷体ウルドゥー語テキスト認識の課題に対処するための新しいアプローチを提案する。我々が提案するUTRNetアーキテクチャは、CNN-RNNを統合したハイブリッドモデルであり、ベンチマークデータセット上で最先端の性能を示している。従来の研究では、ウルドゥー文字の複雑な特徴への一般化能力の欠如や、十分なアノテーション付きの実世界データの不足という課題に直面していたが、これを解決するため、実世界の印刷物から構成され、11,000行以上を含む大規模なアノテーション付きデータセット「UTRSet-Real」と、実世界に類似した20,000行の合成データからなる「UTRSet-Synth」を新たに構築した。さらに、既存のIIITHデータセットのグランドトゥースを修正し、より信頼性の高い研究基盤を提供している。また、スキャンされた文書におけるウルドゥー語テキストライン検出を評価するためのベンチマークデータセット「UrduDoc」も提供している。さらに、UTRNetとテキスト検出モデルを統合することで、印刷文書からのエンドツーエンドウルドゥー語OCRを実現するオンラインツールも開発した。本研究は、ウルドゥー語OCRの現行の制約を克服するだけでなく、今後の研究の道を開き、ウルドゥー語OCR技術の持続的な発展を促進するものである。ソースコード、データセット、アノテーション、学習済みモデル、およびオンラインツールを含むプロジェクトページは、abdur75648.github.io/UTRNet にて公開されている。

UTRNet:印刷文書における高解像度ウルドゥー語テキスト認識 | 最新論文 | HyperAI超神経