HyperAIHyperAI
منذ 15 أيام

OrigamiNet: اعتراف بالنص الكامل للصفحة في خطوة واحدة، خالٍ من التجزئة، مُدرَّب بأساليب التدريب الضعيف، من خلال تعلُّم فتح النص

Mohamed Yousef, Tom E. Bishop
OrigamiNet: اعتراف بالنص الكامل للصفحة في خطوة واحدة، خالٍ من التجزئة، مُدرَّب بأساليب التدريب الضعيف، من خلال تعلُّم فتح النص
الملخص

تمثّل التعرف على النص مهمة رئيسية في مجال الرؤية الحاسوبية، وتشمل مجموعة كبيرة من التحديات المرتبطة بها. أحد هذه التحديات التقليدية يتمثل في الطبيعة المرتبطة بين التعرف على النص وتقسيم النص. وقد تم حل هذا التحدي تدريجيًا على مدار العقود الماضية، بدءًا من النماذج القائمة على التقسيم، وانتهاءً بالنهج الخالية من التقسيم، والتي أثبتت دقة أعلى وبتكلفة أقل بكثير في التصنيف اليدوي للبيانات. نأخذ خطوة متقدمة من التعرف على سطر نصي واحد بدون تقسيم نحو التعرف على عدة أسطر أو صفحات كاملة دون تقسيم. نقترح وحدة شبكة عصبية جديدة ومبسطة، تُسمّى \textbf{OrigamiNet}، التي يمكنها تعزيز أي معالج نصي مُدرّب باستخدام CTC، وذو شبكة كاملة التوسع (Fully Convolutional)، لسطر نصي واحد، لتحويله إلى نموذج قادر على معالجة عدة أسطر، من خلال تزويده بقدرة فضائية كافية تسمح له بضغط إشارة ثنائية الأبعاد (2D) إلى إشارة أحادية البعد (1D) دون فقدان المعلومات. يمكن تدريب هذه الشبكات المُعدّلة باستخدام نفس الإجراء البسيط الأصلي، وباستخدام أزواج صور ونصوص فقط، دون الحاجة إلى تقسيم مسبق للنصوص. أجرينا مجموعة من التجارب التفسيرية التي تُظهر أن النماذج المدربة تتعلم تقسيمًا ضمنيًا دقيقًا للسطور. وحققنا أفضل معدلات في خطأ الحرف على معايير التعرف على الكتابة اليدوية IAM وICDAR 2017 HTR، متفوّقين على جميع الأساليب المنشورة في الأدبيات السابقة. بل وتخطينا حتى النماذج الأحادية السطرية التي تستخدم معلومات دقيقة عن التحديد المكاني أثناء التدريب. يُمكن الوصول إلى الكود الخاص بنا عبر الإنترنت من خلال الرابط: \url{https://github.com/IntuitionMachines/OrigamiNet}.

OrigamiNet: اعتراف بالنص الكامل للصفحة في خطوة واحدة، خالٍ من التجزئة، مُدرَّب بأساليب التدريب الضعيف، من خلال تعلُّم فتح النص | أحدث الأوراق البحثية | HyperAI