6 个月前

摘要

本文提出了一种新颖的方法，旨在解决高分辨率印刷体乌尔都文文本识别中的挑战，该方法基于多尺度语义特征提取。我们提出的UTRNet架构是一种混合型CNN-RNN模型，在基准数据集上表现出当前最先进的性能。为克服以往研究在处理乌尔都文书写系统复杂性方面的局限性，以及真实世界标注数据不足的问题，我们构建了两个关键数据集：UTRSet-Real，一个包含超过11,000行的大型真实场景标注数据集；以及UTRSet-Synth，一个包含20,000行、高度模拟真实场景的合成数据集。此外，我们对现有IIITH数据集的标注进行了修正，提升了其准确性，使其成为未来研究更可靠的资源。我们还发布了UrduDoc，一个用于扫描文档中乌尔都文文本行检测的基准数据集。同时，我们开发了一个在线端到端印刷体乌尔都文OCR工具，该工具将UTRNet与文本检测模型相结合，实现了从印刷文档到文本识别的全流程自动化。本研究不仅有效缓解了当前乌尔都文OCR技术的瓶颈，也为该领域的后续研究奠定了坚实基础，推动了乌尔都文OCR技术的持续发展。项目主页（包含源代码、数据集、标注文件、训练好的模型及在线工具）已发布于：abdur75648.github.io/UTRNet。

源 PDF