HyperAIHyperAI

Command Palette

Search for a command to run...

UTRNet:印刷文書における高解像度ウルドゥー語テキスト認識

Abdur Rahman Arjun Ghosh Chetan Arora

概要

本稿では、高解像度かつマルチスケールの意味特徴抽出を用いた印刷体ウルドゥー語テキスト認識の課題に対処するための新しいアプローチを提案する。我々が提案するUTRNetアーキテクチャは、CNN-RNNを統合したハイブリッドモデルであり、ベンチマークデータセット上で最先端の性能を示している。従来の研究では、ウルドゥー文字の複雑な特徴への一般化能力の欠如や、十分なアノテーション付きの実世界データの不足という課題に直面していたが、これを解決するため、実世界の印刷物から構成され、11,000行以上を含む大規模なアノテーション付きデータセット「UTRSet-Real」と、実世界に類似した20,000行の合成データからなる「UTRSet-Synth」を新たに構築した。さらに、既存のIIITHデータセットのグランドトゥースを修正し、より信頼性の高い研究基盤を提供している。また、スキャンされた文書におけるウルドゥー語テキストライン検出を評価するためのベンチマークデータセット「UrduDoc」も提供している。さらに、UTRNetとテキスト検出モデルを統合することで、印刷文書からのエンドツーエンドウルドゥー語OCRを実現するオンラインツールも開発した。本研究は、ウルドゥー語OCRの現行の制約を克服するだけでなく、今後の研究の道を開き、ウルドゥー語OCR技術の持続的な発展を促進するものである。ソースコード、データセット、アノテーション、学習済みモデル、およびオンラインツールを含むプロジェクトページは、abdur75648.github.io/UTRNet にて公開されている。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています