HyperAIHyperAI

Command Palette

Search for a command to run...

SAFL: معالج نصي مُشاهدات يعتمد على الانتباه الذاتي مع خسارة مركزية

Bao Hieu Tran Thanh Le-Cong Huu Manh Nguyen Duc Anh Le Thanh Hung Nguyen Phi Le Nguyen

الملخص

في العقود الأخيرة، أصبح التعرف على النصوص في المشاهد محط اهتمام عالمي من قبل المجتمع الأكاديمي والمستخدمين الفعليين نظرًا لأهميته في طيف واسع من التطبيقات. وعلى الرغم من التقدم المحرز في تقنيات التعرف البصري على الأحرف، يظل التعرف على النصوص في المشاهد تحديًا كبيرًا بسبب المشكلات الجوهرية مثل التشوهات أو التخطيط غير المنتظم. تعتمد معظم الطرق الحالية بشكل رئيسي على الشبكات العصبية التكرارية أو الشبكات العصبية التلافيفية. ومع ذلك، فإن الشبكات العصبية التكرارية (RNN) تعاني غالبًا من سرعة تدريب بطيئة ناتجة عن الحساب التسلسلي، وتواجه مشكلات مثل تلاشي التدرج (vanishing gradient) أو الحدود (bottleneck)، في حين تواجه الشبكات العصبية التلافيفية (CNN) تنازلًا بين التعقيد والأداء. في هذا البحث، نقدم نموذج SAFL، وهو نموذج شبكة عصبية تعتمد على الانتباه الذاتي (self-attention) مع استخدام دالة الخسارة المركزة (focal loss) للتعرف على النصوص في المشاهد، بهدف التغلب على قيود الطرق الحالية. ويساهم استخدام دالة الخسارة المركزة بدلًا من دالة اللوغاريتم السلبي في تمكين النموذج من التركيز أكثر على العينات منخفضة التكرار أثناء التدريب. علاوة على ذلك، لمعالجة تشوهات النصوص والتخطيط غير المنتظم، نستخدم شبكة المحول المكاني (Spatial Transformer Network - STN) لتصحيح النص قبل إرساله إلى شبكة التعرف. أجرينا تجارب مقارنة أداء النموذج المقترح مع سبعة نماذج معيارية. وأظهرت النتائج العددية أن نموذجنا يحقق أفضل أداء ممكن.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp