إطار عمل مُحسّن لتمثيل وارتباط الترميز-إعادة الترميز لتمييز النص في المشهد

يُستخدم إطار العمل القائم على الانتباه في مُشَرِّع الترميز والفك (encoder-decoder) على نطاق واسع في مهام تمييز النص في المشاهد. ومع ذلك، تظل هناك مجالات للتحسين في الطرق الرائدة حاليًا (SOTA) فيما يتعلق باستخدام فعّال للمعلومات البصرية المحلية والاتصالات السياقية الشاملة للصورة النصية المدخلة، وكذلك في القوة الترابطية بين وحدة معالجة المشهد (المُشَرِّع) ووحدة معالجة النص (المُفكّك). في هذه الورقة، نقترح إطارًا مُحسَّنًا لتمثيل التمثيل والارتباط (RCEED) لمعالجة هذه النواقص وتجاوز الحدود الأداءية. في وحدة التشفير (encoder)، يتم توحيد ودمج الخصائص البصرية المحلية، وخصائص السياق الشامل، ومعلومات الموقع لتكوين خريطة متكاملة صغيرة الحجم. وفي وحدة التفكيك (decoder)، تُستخدم طريقتان لتعزيز الترابط بين فضاءات ميزات المشهد والنصوص: (1) يتم توجيه بدء التشغيل في المُفكّك من خلال الخصائص الشاملة والمحور البصري العام (global glimpse vector) الناتج عن وحدة التشفير؛ (2) يُستخدم المحور البصري المُثرّى بالميزات، الذي يُنتَج بواسطة الانتباه متعدد الرؤوس العام (Multi-Head General Attention)، لمساعدة التكرار في وحدة RNN وتقدير الحروف في كل خطوة زمنية. بالإضافة إلى ذلك، صممنا خلية LSTM تُستخدم فيها معيار التطبيع الطبقي (LayerNorm-Dropout) لتحسين قدرة النموذج على التعميم تجاه النصوص المتنوعة والمتغيرة. أظهرت التجارب الواسعة على مجموعات البيانات المرجعية الأداء المتميز لـ RCEED في مهام تمييز النص في المشاهد، وخاصةً في الحالات غير المنتظمة.