HyperAIHyperAI

Command Palette

Search for a command to run...

ASTER: مستشعر نص مشهد انتباهي مع تصحيح مرنة

and Xiang Bai Mingkun Yang Xinggang Wang Pengyuan Lyu Cong Yao Baoguang Shi

الملخص

لقد لاقت تقنية التعرف على النص في المشاهد اهتمامًا كبيرًا من قبل الأوساط الأكاديمية والصناعية في السنوات الأخيرة بسبب أهميتها في طيف واسع من التطبيقات. وعلى الرغم من النضج الذي بلغته أنظمة التعرف البصري على النص (OCR) المخصصة لنصوص الوثائق، يظل التعرف على النص في المشاهد مشكلة صعبة. تشكل التغيرات الكبيرة في الخلفية والمظهر والترتيب تحدّيات كبيرة، لا يمكن للطرق التقليدية لـ OCR التعامل معها بشكل فعّال. ويشكل التقدم الحديث في التعرف على النص في المشاهد نتاج نجاح النماذج القائمة على التعلم العميق. ومن بين هذه الأساليب: الأساليب التي تُعرّف النص حرفًا باستخدام الشبكات العصبية التلافيفية (CNN)، والأساليب التي تصنف الكلمات باستخدام الشبكات العصبية التلافيفية [24]، [26]، والأساليب التي تُعرّف تسلسلات الأحرف باستخدام مزيج من الشبكة العصبية التلافيفية والشبكة العصبية التكرارية (RNN) [54]. وعلى الرغم من نجاح هذه الأساليب، فإنها لا تعالج بشكل صريح مشكلة النص غير المنتظم، وهو النص الذي لا يكون أفقيًا ولا أماميًا، بل قد يكون منحنيًا أو مُتعرّجًا، إلخ. وغالبًا ما تظهر أمثلة على النص غير المنتظم في المشاهد الطبيعية. كما يوضح الشكل 1، تشمل الحالات الشائعة نصوصًا مائلة، ونصوصًا منظورية [49]، ونصوصًا منحنية. وبما أن هذه الأساليب السابقة لم تُصمم بالاعتماد على التحفيظ تجاه هذه التغيرات غير المنتظمة، فإنها غالبًا ما تواجه صعوبات في التعرف على مثل هذه الحالات.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp