مُفكِّك متوازٍ لفهم السياق للتعرف على النص في المشهد

تواجه أساليب التعرف على النص في المشهد (STR) صعوبات في تحقيق دقة عالية وسرعة استنتاج سريعة في آنٍ واحد. تعتمد النماذج القائمة على التوليد التسلسلي (AR) على معالجة التعرف على النص حرفًا بحرف، مما يُظهر تفوقًا في الدقة، لكنه يُعاني من بطء في عملية الاستنتاج. من ناحية أخرى، تُقدّم النماذج القائمة على التفكيك المتوازٍ (PD) استنتاجًا لجميع الحروف في عملية تفكيك واحدة، ما يوفر سرعة استنتاج أعلى، لكنها غالبًا ما تُظهر دقة أقل. نقدّم أولًا دراسة تجريبية حول عملية التفكيك التسلسلي في STR، ونكتشف أن معالج التفكيك التسلسلي لا يُعالج فقط السياق اللغوي، بل يُقدّم أيضًا توجيهات لفهم السياق البصري. استنادًا إلى هذا الاكتشاف، نقترح نموذجًا جديدًا يُسمى "معالج التفكيك المتوازٍ للإدراك السياقي" (CPPD)، الذي يُقدّر تسلسل الحروف في عملية تفكيك متوازية واحدة. يُصمم CPPD وحدة عد الحروف لاستنتاج عدد تكرار كل حرف، ووحدة ترتيب الحروف لاستنتاج تسلسل القراءة غير المعتمد على المحتوى، بالإضافة إلى تحديد أماكن الفراغ (النُّماذج المُستَخدَمة للحروف). وفي الوقت نفسه، يربط مهام التنبؤ بالحروف هذه الأماكن الفارغة بالحروف المناسبة. ويتضافر هذا التفاعل لبناء سياق شامل للتعرف على النص. قمنا ببناء سلسلة من نماذج CPPD، كما قمنا بدمج الوحدات المقترحة في معالجات STR الحالية. أظهرت التجارب على معايير باللغتين الإنجليزية والصينية أن نماذج CPPD تحقق دقة تنافسية عالية، مع تسريع في الأداء بنسبة تصل إلى 8 أضعاف مقارنة بنماذج AR المماثلة. علاوةً على ذلك، حققت النماذج التي تم دمج الوحدات فيها تحسينات كبيرة في الدقة. يمكن الاطلاع على الكود من خلال الرابط التالي: \href{https://github.com/PaddlePaddle/PaddleOCR/blob/dygraph/doc/doc_en/algorithm_rec_cppd_en.md}{هذا الرابط}