UTRNet: التعرف على النص الأوردوى عالي الدقة في المستندات المطبوعة

في هذه الورقة، نقترح نهجًا جديدًا لمعالجة التحديات المرتبطة باست reconocition النصوص المطبوعة باللغة الأردية باستخدام استخراج ميزات شمولية متعددة المقاييس وعالية الدقة. تُظهر البنية المعمارية UTRNet، التي تُعد نموذجًا هجينًا يعتمد على الشبكات العصبية التلافيفية (CNN) والشبكات العصبية التكرارية (RNN)، أداءً متقدمًا على مستويات معايير البيانات القياسية. وللتغلب على قيود الدراسات السابقة، التي تعاني من صعوبة التعميم على التعقيدات المميزة للخط الأردي ونقص البيانات المُANNOTATED الواقعية الكافية، قمنا بتطوير مجموعة بيانات حقيقية كبيرة الحجم مُANNOTATED تُسمى UTRSet-Real، والتي تتضمن أكثر من 11,000 سطرًا، بالإضافة إلى مجموعة بيانات مُصطنعة تُسمى UTRSet-Synth، تحتوي على 20,000 سطر وتُحاكي بدرجة عالية من الدقة الواقعية، كما قمنا بتصحيح بيانات الحقيقة الأساسية (ground truth) في مجموعة البيانات الحالية IIITH، مما يجعلها موردًا أكثر موثوقية للبحوث المستقبلية. كما قدمنا أيضًا UrduDoc، وهي مجموعة بيانات معيارية للكشف عن خطوط النص الأردي في المستندات الممسوحة ضوئيًا. علاوةً على ذلك، طوّرنا أداة مباشرة (online tool) لاستخراج النصوص الأردية من المستندات المطبوعة بشكل متكامل (end-to-end) من خلال دمج UTRNet مع نموذج كشف النصوص. إن عملنا لا يعالج التحديات الحالية في تقنية استخراج النصوص الأردية فحسب، بل يُعد أيضًا خطوة مهمة نحو تطوير الأبحاث المستقبلية في هذا المجال، ويعزز التقدم المستمر في تقنية OCR للغة الأردية. يمكن الاطلاع على صفحة المشروع التي تتضمن الكود المصدري، ومجموعات البيانات، والتعليقات، والنموذج المدرب، والأداة المباشرة من خلال الرابط: abdur75648.github.io/UTRNet.