مسرّع نص مشهد ذاتي فردي في لحظة واحدة من خلال كشف وتمييز منفصلين لكن تعاونيين

تتبع البقع النصية التقليدية نموذجًا ثنائي المرحلة، حيث تقوم أولاً بتحديد الحدود الخاصة بحالة نصية معينة، ثم تُنفّذ عملية التعرف على النص داخل المناطق المحددة. وعلى الرغم من التقدم الكبير الذي حققته هذه الطريقة، إلا أن لها قيدًا مهمًا، وهو أن أداء التعرف على النص يعتمد بشكل كبير على دقة كشف النص، ما يؤدي إلى احتمال انتقال الأخطاء من مرحلة الكشف إلى مرحلة التعرف. في هذا العمل، نقترح نموذجًا جديدًا يُسمى "بقع النص المُستقلة الأحادية الصدمة الإصدار 2" (SRSTS v2)، والذي يتجاوز هذا القيد من خلال فصل عملية التعرف عن عملية الكشف، مع تحسين المهام ذاتها بشكل تعاوني. بشكل محدد، يُخذ عينات من نقاط الميزة الممثلة حول كل حالة نصية محتملة، ويُجرى كشف النص والتعرف عليه بالتوازي بقيادة هذه النقاط المُستخرجة. وبذلك، يصبح التعرف على النص غير مُعتمد على الكشف، مما يخفف من انتقال الأخطاء من الكشف إلى التعرف. علاوةً على ذلك، يتم تدريب وحدة الاستخراج (العينة) تحت إشراف من كلا المهمتين (الكشف والتعرف)، ما يسمح بتحسين تعاوني وتعزيز متبادل بين المهمتين. وبفضل الإطار المُعتمِد على الاستخراج التزامني، يمكن لطرائقنا التعرف على الحالات النصية بشكل صحيح حتى في الحالات التي يكون فيها تحديد الحدود الدقيقة للنص أمرًا صعبًا. وتبين النتائج الواسعة على أربع معايير أن طريقةنا تتفوّق على أفضل النماذج الحالية في مجال الكشف عن النص في المشاهد.