HyperAIHyperAI

Command Palette

Search for a command to run...

التحويلة البصرية للقراءة السريعة والفعالة للنص في المشهد

Rowel Atienza

الملخص

تمكّن تقنية التعرف على النص في المشهد (STR) الحواسيب من قراءة النصوص في البيئات الطبيعية مثل الملصقات على الأشياء، والإشارات المرورية، والتعليمات. وتساعد STR الآلات على اتخاذ قرارات مُحكَمة، مثل تحديد الجسم الذي يجب التقاطه، والاتجاه الذي يجب اتباعه، وما هي الخطوة التالية في الإجراء. في نطاق الأبحاث المتعلقة بـ STR، كان التركيز دائمًا على دقة التعرف، بينما تم إهمال السرعة والكفاءة الحسابية، التي تُعدّ متساوية الأهمية، خصوصًا بالنسبة للآلات المحمولة التي تواجه قيودًا في الطاقة. في هذا البحث، نقترح ViTSTR، وهو نموذج STR يعتمد على بنية معمارية بسيطة ذات مرحلة واحدة، مبنية على نموذج محول الرؤية (ViT) فعّال من حيث الحوسبة وعدد المعاملات. مقارنةً بأساس قوي مثل TRBA الذي يحقق دقة 84.3%، فإن نموذج ViTSTR الصغير يحقق دقة تنافسية تبلغ 82.6% (84.2% مع تكبير البيانات)، بسرعة 2.4 مرة أسرع، مع استخدام 43.4% فقط من عدد المعاملات و42.2% من العمليات الحسابية (FLOPS). أما النسخة الصغيرة جدًا من ViTSTR، فإنها تحقق دقة 80.3% (82.1% مع تكبير البيانات)، بسرعة 2.5 مرة أسرع، مع استخدام 10.9% فقط من عدد المعاملات و11.9% من FLOPS. وباستخدام تكبير البيانات، يتفوّق نموذج ViTSTR الأساسي على TRBA بتحقيق دقة 85.2% (83.7% دون تكبير البيانات)، بسرعة 2.3 مرة أسرع، مع استهلاك 73.2% أكثر من المعاملات و61.5% أكثر من FLOPS. من حيث التوازن بين الجوانب المختلفة، تقع جميع تكوينات ViTSTR تقريبًا على أو بالقرب من الحدود الأمثل، بهدف تحقيق أعلى مستوى من الدقة والسرعة والكفاءة الحسابية معًا في آنٍ واحد.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp