HyperAIHyperAI
منذ 15 أيام

SVTR: التعرف على النص في المشهد باستخدام نموذج بصري واحد

Yongkun Du, Zhineng Chen, Caiyan Jia, Xiaoting Yin, Tianlun Zheng, Chenxia Li, Yuning Du, Yu-Gang Jiang
SVTR: التعرف على النص في المشهد باستخدام نموذج بصري واحد
الملخص

تتكون النماذج الشائعة لتمييز النص في المشاهد من مكوّنين رئيسيين: نموذج بصري لاستخراج الميزات، ونموذج تسلسلي لتحويل النص. وعلى الرغم من دقة هذا الهيكل الهجين، إلا أنه معقّد وغير فعّال من حيث الأداء. في هذه الدراسة، نقترح نموذجًا بصريًا واحدًا لتمييز النص في المشاهد ضمن إطار تجزئة الصورة إلى لوحات (patch-wise image tokenization)، مما يزيل الحاجة إلى النمذجة التسلسلية تمامًا. يُسمّى هذا الأسلوب SVTR، ويتضمن في المقام الأول تفكيك النص في الصورة إلى لوحات صغيرة تُعرف بـ "مكونات الحروف". ثم تُطبّق مراحل هرمية بشكل متكرر من خلال خلط ودمج أو تجميع مكونات على مستوى الحرف. وقد تم تطوير كتل خلط عالمية ومحليّة لاستشعار الأنماط بين الحروف وداخل الحرف الواحد، مما يؤدي إلى تصور متعدد المقاييس لمكونات الحروف. وبالتالي، يتم تمييز الحروف من خلال تنبؤ خطي بسيط. أظهرت النتائج التجريبية في مهام تمييز النص في المشاهد باللغتين الإنجليزية والصينية فعالية SVTR. حيث حقق SVTR-L (النسخة الكبيرة) دقة تنافسية عالية في اللغة الإنجليزية، وتفوق بفارق كبير على الطرق الحالية في اللغة الصينية، مع سرعة أعلى في الأداء. وبالإضافة إلى ذلك، يُعدّ SVTR-T (النسخة الصغيرة) نموذجًا فعّالًا وأصغر حجمًا، ويُظهر أداءً مميزًا من حيث السرعة أثناء التنبؤ. تم إتاحة الكود مفتوح المصدر عبر الرابط: https://github.com/PaddlePaddle/PaddleOCR.

SVTR: التعرف على النص في المشهد باستخدام نموذج بصري واحد | أحدث الأوراق البحثية | HyperAI