HyperAIHyperAI
منذ 11 أيام

إعادة النظر من منظور التصنيف في التعرف على النص في المشهد

Hongxiang Cai, Jun Sun, Yichao Xiong
إعادة النظر من منظور التصنيف في التعرف على النص في المشهد
الملخص

تُعتبر النظرة السائدة في مجال تمييز النص في المشاهد من نوع التسلسل إلى التسلسل (seq2seq) والتقسيم. ومع ذلك، فإن النموذج الأول يتكون من العديد من المكونات، مما يجعل تنفيذه ونشره معقدًا، في حين أن النموذج الثاني يتطلب تسميات على مستوى الحرف، وهي تسميات مكلفة. في هذا البحث، نعيد النظر في النظرة التصنيفية التي تُعدّ تمييز النص في المشاهد مشكلة تصنيف صور. تتميز النظرة التصنيفية بمسار بسيط وتحتاج فقط إلى تسميات على مستوى الكلمة. نُعيد إحياء النظرة التصنيفية من خلال تصميم نموذج لتمييز النص في المشاهد يُسمّى CSTR، والذي يحقق أداءً مماثلًا للطرق الأخرى من وجهات نظر مختلفة. يتكون نموذج CSTR من CPNet (شبكة النظرة التصنيفية) وSPPN (شبكة التنبؤ ذات التحويلات المنفصلة مع تجميع متوسط عالمي). يشبه نموذج CSTR نماذج التصنيف الصوتي البسيطة مثل ResNet \cite{he2016deep}، مما يجعله سهل التنفيذ والنشر. ونُظهر فعالية النظرة التصنيفية في تمييز النص في المشاهد من خلال تجارب واسعة النطاق. علاوة على ذلك، يحقق CSTR أداءً قريبًا من الحد الأقصى المُحقَّق في ستة معايير عامة، تشمل النصوص المنتظمة وغير المنتظمة. سيتم إتاحة الكود على الرابط: https://github.com/Media-Smart/vedastr.

إعادة النظر من منظور التصنيف في التعرف على النص في المشهد | أحدث الأوراق البحثية | HyperAI