CDistNet: إدراك المسافة بين الشخصيات متعددة المجالات للتعرف على النص المُوثوق

يكتسب إطار العمل القائم على المُحَوِّل (Transformer-based encoder-decoder) شعبية متزايدة في مهمة التعرف على النصوص في المشاهد، وذلك بشكل رئيسي لأنه يدمج بشكل طبيعي علامات التعرف من المجالين البصري والمعنوي. ومع ذلك، تُظهر الدراسات الحديثة أن هاتين النوعين من العلامات لا تكونان دائمًا متماشيتين جيدًا، ما يؤدي إلى عدم توافق بين الميزات والرموز في الحالات الصعبة (مثل النصوص ذات الأشكال النادرة). ونتيجة لذلك، تم إدخال قيود مثل موضع الحرف لمعالجة هذه المشكلة. وعلى الرغم من النجاح النسبي الذي تم تحقيقه، تُعالج المجالان البصري والمعنوي بشكل منفصل، ويظل ارتباطهما ضعيفًا. في هذا البحث، نقترح وحدة جديدة تُسمى "الاستشعار بالمسافة بين الحروف عبر المجالات المتعددة" (Multi-Domain Character Distance Perception - MDCDP)، والتي تُنشئ تضمينًا مكانيًا مرتبطًا بصريًا ومعنويًا. تعتمد MDCDP على تضمين الموضع لاستعلام الميزات البصرية والمعنوية باستخدام آلية الانتباه المتبادل (cross-attention mechanism). وتُدمج هاتان النوعان من العلامات في فرع الموضع، مما يُنتج تضمينًا واعيًا للمحتوى، يتمتع بقدرة عالية على استشعار تغيرات المسافات بين الحروف والاتجاهات، وعلاقات التشابه الدلالي بين الحروف، بالإضافة إلى العلامات التي تربط بين النوعين من المعلومات. وتم تلخيص هذه العناصر مجتمعةً في مفهوم "المسافة بين الحروف عبر المجالات المتعددة". وقد طوّرنا نموذج CDistNet من خلال تكرار وحدة MDCDP بشكل متسلسل، بهدف توجيه نموذج مُتدرج لتحديد المسافات بدقة متزايدة. وبهذا، يتم بناء تطابق فعّال بين الميزات والرموز حتى في الظروف الصعبة التي تواجه التعرف. وقد تم التحقق من أداء CDistNet على عشرة مجموعات بيانات عامة صعبة، بالإضافة إلى سلسلتين من مجموعات البيانات المُضافة التي أنشأناها بأنفسنا. وأظهرت التجارب أن CDistNet يحقق أداءً متميزًا للغاية، حيث يحتل مكانة متميزة في المعايير القياسية، كما يتفوق بفارق واضح على الطرق الحديثة الشائعة في مجموعات البيانات الحقيقية والمضافة التي تتميز بتشوهات شديدة في النصوص، ودعم لغوي ضعيف، وتصميمات نادرة للحروف. يمكن الوصول إلى الكود عبر الرابط: https://github.com/simplify23/CDistNet.