FAST: كاشف نص غير منتظم أسرع مع تمثيل نواة مبسط

نُقدّم إطارًا دقيقًا وفعّالًا للكشف عن النص في المشهد، يُسمّى FAST (أي كاشف النص الأسرع بأشكاله العشوائية). على عكس الكاشفات الحديثة المتقدمة التي تعتمد على معالجة ما بعد معقدة وبنية شبكة مصممة يدويًا، ما يؤدي إلى سرعة استنتاج منخفضة، فإن FAST يحتوي على تصميمين جديدين. (1) نصمم تمثيلًا ناقصًا للنواة (يُنتج فقط مخرجًا بقناة واحدة) لتمثيل النص بأشكال عشوائية، بالإضافة إلى معالجة ما بعد مُوازية على وحدة معالجة الرسومات (GPU) لتركيب سطور النص بشكل فعّال مع تكلفة زمنية ضئيلة جدًا. (2) نُجري بحثًا في بنية الشبكة المُخصصة للكشف عن النص، مما يؤدي إلى استخلاص ميزات أقوى من معظم الشبكات التي تم البحث عنها لتصنيف الصور. وبفضل هذين التصميمين، يحقق FAST توازنًا ممتازًا بين الدقة والكفاءة على عدة مجموعات بيانات صعبة، منها Total Text، CTW1500، ICDAR 2015، وMSRA-TD500. على سبيل المثال، يُحقّق FAST-T قياسًا F يبلغ 81.6% بسرعة 152 إطارًا في الثانية على مجموعة Total-Text، متفوّقًا على أسرع طريقة سابقة بمقدار 1.7 نقطة من حيث الدقة، وبفارق 70 إطارًا في الثانية من حيث السرعة. وباستخدام تحسين TensorRT، يمكن تسريع سرعة الاستنتاج إلى أكثر من 600 إطار في الثانية. سيتم إتاحة الكود والنموذج عبر الرابط: https://github.com/czczup/FAST.