DPText-DETR: نحو كشف أفضل للنص المسرحي باستخدام نقاط ديناميكية في التحويلة

في الآونة الأخيرة، أصبحت الطرق القائمة على مُحَوِّل (Transformer) شائعة في كشف النصوص في المشاهد، حيث تقوم هذه الطرق باستنتاج نقاط المضلع أو نقاط التحكم في منحنيات بيزيه لتحديد مواقع النصوص. ومع ذلك، قد تحقق هذه الطرق، التي تُبنى على إطار عمل مُحَوِّل الكشف (Detection Transformer)، كفاءة تدريب ونتائج أداء غير مثلى نظرًا لنموذج الاستعلام الموضعي الخشِن. بالإضافة إلى ذلك، فإن شكل التسمية النقطية المستخدم في الدراسات السابقة يُشير إلى ترتيب القراءة البشري، مما يُضعف من قدرة الكشف على التحمل وفقًا لملاحظاتنا. لمعالجة هذه التحديات، تقدم هذه الورقة شبكة مُحَوِّل مُوجَّهة للكشف عن النصوص باستخدام نقاط ديناميكية موجزة، تُسمَّى DPText-DETR. وتحديدًا، تستخدم DPText-DETR إحداثيات نقاط صريحة مباشرة لتكوين استعلامات مكانية، وتُحدِّث هذه الاستعلامات ديناميكيًا بطريقة تدريجية. علاوةً على ذلك، لتحسين التحيز الفرعي المكاني في الانتباه الذاتي غير المحلي ضمن مُحَوِّل، نقدّم وحدة انتباه ذاتي مُحسَّن ومُفكَّك (Enhanced Factorized Self-Attention)، التي توفر توجيهًا شكليًا دائريًا للاستعلامات النقطية داخل كل كائن. كما صممنا شكلًا بسيطًا وفعّالًا لتسمية الموضع، بهدف التصدي للآثار الجانبية الناتجة عن الشكل السابق. ولتقييم أثر أشكال التسمية المختلفة على قدرة الكشف على التحمل في السياقات الواقعية، أنشأنا مجموعة اختبار تُسمَّى Inverse-Text، تتضمن 500 صورة تم تسميتها يدويًا. أظهرت التجارب الواسعة كفاءة تدريب عالية، ومقاومة متميزة، وأداءً متفوقًا على المستويات المتطورة في المعايير الشهيرة. يمكن الوصول إلى الكود ومجموعة اختبار Inverse-Text من خلال الرابط: https://github.com/ymy-k/DPText-DETR.