HyperAIHyperAI

Command Palette

Search for a command to run...

إعادة النظر من منظور التصنيف في التعرف على النص في المشهد

Hongxiang Cai Jun Sun Yichao Xiong

الملخص

تُعتبر النظرة السائدة في مجال تمييز النص في المشاهد من نوع التسلسل إلى التسلسل (seq2seq) والتقسيم. ومع ذلك، فإن النموذج الأول يتكون من العديد من المكونات، مما يجعل تنفيذه ونشره معقدًا، في حين أن النموذج الثاني يتطلب تسميات على مستوى الحرف، وهي تسميات مكلفة. في هذا البحث، نعيد النظر في النظرة التصنيفية التي تُعدّ تمييز النص في المشاهد مشكلة تصنيف صور. تتميز النظرة التصنيفية بمسار بسيط وتحتاج فقط إلى تسميات على مستوى الكلمة. نُعيد إحياء النظرة التصنيفية من خلال تصميم نموذج لتمييز النص في المشاهد يُسمّى CSTR، والذي يحقق أداءً مماثلًا للطرق الأخرى من وجهات نظر مختلفة. يتكون نموذج CSTR من CPNet (شبكة النظرة التصنيفية) وSPPN (شبكة التنبؤ ذات التحويلات المنفصلة مع تجميع متوسط عالمي). يشبه نموذج CSTR نماذج التصنيف الصوتي البسيطة مثل ResNet \cite{he2016deep}، مما يجعله سهل التنفيذ والنشر. ونُظهر فعالية النظرة التصنيفية في تمييز النص في المشاهد من خلال تجارب واسعة النطاق. علاوة على ذلك، يحقق CSTR أداءً قريبًا من الحد الأقصى المُحقَّق في ستة معايير عامة، تشمل النصوص المنتظمة وغير المنتظمة. سيتم إتاحة الكود على الرابط: https://github.com/Media-Smart/vedastr.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
إعادة النظر من منظور التصنيف في التعرف على النص في المشهد | مستندات | HyperAI