DeepSolo: تمكين مشفرة Transformer مع نقاط صريحة من الأداء الفردي للكشف عن النص

يهدف التعرف على النص من الطرف إلى الطرف إلى دمج كلا المهمتين الفرعيتين للكشف عن النص في البيئة المكانية والتقدير فيه ضمن إطار موحد. ويلعب التعامل مع العلاقة بين المهمتين الفرعيتين دورًا محوريًا في تصميم أنظمة التعرف الفعّالة. وعلى الرغم من أن الطرق القائمة على المُحَوِّل (Transformer) تُزيل المعالجة ما بعدية اليدوية (heuristic post-processing)، إلا أنها ما زالت تعاني من مشكلة التآزر بين المهمتين الفرعيتين وفعالية تدريب منخفضة. في هذا البحث، نقدّم DeepSolo، وهو أساس بسيط على غرار DETR، يسمح لـ "مُفكّك واحد" (Decoder) باستخدام نقاط صريحة (Explicit Points) للقيام بالكشف عن النص والتقدير فيه في آنٍ واحد. من الناحية التقنية، نُمثّل كل مثال نصي كسلسلة من النقاط المرتبة، ونُمثّلها باستخدام استعلامات نقاط قابلة للتعلم (learnable explicit point queries). وبعد المرور عبر مُفكّك واحد، تُشحَن استعلامات النقاط بمعاني نصية وموقعات ضرورية، مما يمكنها من التفكيك لاحقًا إلى الخط الأوسط، والحدود، والخط (script)، ودرجة الثقة عبر رؤوس تنبؤ بسيطة تعمل بالتوازي. بالإضافة إلى ذلك، نُقدّم أيضًا معيارًا للتوافق النصي (text-matching criterion) لتقديم إشارات مراقبة أكثر دقة، مما يُمكّن من تدريب أكثر كفاءة. تُظهر التجارب الكمية على مجموعات بيانات عامة أن DeepSolo يتفوّق على الطرق السابقة الأكثر تقدمًا، ويحقق كفاءة تدريب أفضل. علاوةً على ذلك، فإن DeepSolo متوافق أيضًا مع التسميات الخطية (line annotations)، والتي تتطلب تكلفة تسمية أقل بكثير من التسميات متعددة الأضلاع (polygons). يمكن الوصول إلى الكود عبر الرابط: https://github.com/ViTAE-Transformer/DeepSolo.