إلى التعرف الموحّد على النص في المشهد المستند إلى التوليد التسلسلي

أحرزت نماذج توليد التسلسل تقدماً كبيراً مؤخراً في دمج مهام الرؤية المختلفة. وعلى الرغم من أن بعض النماذج التلقائية (التي تعمل بالتسلسل) أظهرت نتائج واعدة في مهمة التعرف على النصوص النهائية (end-to-end text spotting)، إلا أنها تعتمد على صيغ كشف محددة، وتجاهلت أشكال النصوص المختلفة، كما أنها محدودة من حيث العدد الأقصى للنصوص التي يمكن كشفها. لتجاوز هذه القيود، نقترح نموذجاً موحداً للتنبؤ بالنصوص في المشاهد، يُسمى UNITS. يوحد نموذجنا مختلف صيغ الكشف، بما في ذلك المستطيلات الرباعية والمضلعات، مما يمكّنه من كشف النصوص بأي شكل هندسي. علاوةً على ذلك، نستخدم تقنية التحفيز من نقطة البداية (starting-point prompting) لتمكين النموذج من استخراج النصوص من أي نقطة بداية، مما يسمح باستخراج عدد أكبر من النصوص مقارنة بعدد النماذج التي تم تدريبه عليها. أظهرت النتائج التجريبية أن طريقة عملنا تحقق أداءً تنافسياً مقارنة بالأساليب الحديثة المتقدمة. كما أظهر التحليل الإضافي أن UNITS قادر على استخراج عدد أكبر من النصوص مقارنة بعدد النماذج التي تم تدريبه عليها. نوفر الشفرة البرمجية الخاصة بنا على الرابط التالي: https://github.com/clovaai/units.