التحويلة البصرية للقراءة السريعة والفعالة للنص في المشهد

تمكّن تقنية التعرف على النص في المشهد (STR) الحواسيب من قراءة النصوص في البيئات الطبيعية مثل الملصقات على الأشياء، والإشارات المرورية، والتعليمات. وتساعد STR الآلات على اتخاذ قرارات مُحكَمة، مثل تحديد الجسم الذي يجب التقاطه، والاتجاه الذي يجب اتباعه، وما هي الخطوة التالية في الإجراء. في نطاق الأبحاث المتعلقة بـ STR، كان التركيز دائمًا على دقة التعرف، بينما تم إهمال السرعة والكفاءة الحسابية، التي تُعدّ متساوية الأهمية، خصوصًا بالنسبة للآلات المحمولة التي تواجه قيودًا في الطاقة. في هذا البحث، نقترح ViTSTR، وهو نموذج STR يعتمد على بنية معمارية بسيطة ذات مرحلة واحدة، مبنية على نموذج محول الرؤية (ViT) فعّال من حيث الحوسبة وعدد المعاملات. مقارنةً بأساس قوي مثل TRBA الذي يحقق دقة 84.3%، فإن نموذج ViTSTR الصغير يحقق دقة تنافسية تبلغ 82.6% (84.2% مع تكبير البيانات)، بسرعة 2.4 مرة أسرع، مع استخدام 43.4% فقط من عدد المعاملات و42.2% من العمليات الحسابية (FLOPS). أما النسخة الصغيرة جدًا من ViTSTR، فإنها تحقق دقة 80.3% (82.1% مع تكبير البيانات)، بسرعة 2.5 مرة أسرع، مع استخدام 10.9% فقط من عدد المعاملات و11.9% من FLOPS. وباستخدام تكبير البيانات، يتفوّق نموذج ViTSTR الأساسي على TRBA بتحقيق دقة 85.2% (83.7% دون تكبير البيانات)، بسرعة 2.3 مرة أسرع، مع استهلاك 73.2% أكثر من المعاملات و61.5% أكثر من FLOPS. من حيث التوازن بين الجوانب المختلفة، تقع جميع تكوينات ViTSTR تقريبًا على أو بالقرب من الحدود الأمثل، بهدف تحقيق أعلى مستوى من الدقة والسرعة والكفاءة الحسابية معًا في آنٍ واحد.