HyperAIHyperAI

Command Palette

Search for a command to run...

OrigamiNet: اعتراف بالنص الكامل للصفحة في خطوة واحدة، خالٍ من التجزئة، مُدرَّب بأساليب التدريب الضعيف، من خلال تعلُّم فتح النص

Mohamed Yousef Tom E. Bishop

الملخص

تمثّل التعرف على النص مهمة رئيسية في مجال الرؤية الحاسوبية، وتشمل مجموعة كبيرة من التحديات المرتبطة بها. أحد هذه التحديات التقليدية يتمثل في الطبيعة المرتبطة بين التعرف على النص وتقسيم النص. وقد تم حل هذا التحدي تدريجيًا على مدار العقود الماضية، بدءًا من النماذج القائمة على التقسيم، وانتهاءً بالنهج الخالية من التقسيم، والتي أثبتت دقة أعلى وبتكلفة أقل بكثير في التصنيف اليدوي للبيانات. نأخذ خطوة متقدمة من التعرف على سطر نصي واحد بدون تقسيم نحو التعرف على عدة أسطر أو صفحات كاملة دون تقسيم. نقترح وحدة شبكة عصبية جديدة ومبسطة، تُسمّى \textbf{OrigamiNet}، التي يمكنها تعزيز أي معالج نصي مُدرّب باستخدام CTC، وذو شبكة كاملة التوسع (Fully Convolutional)، لسطر نصي واحد، لتحويله إلى نموذج قادر على معالجة عدة أسطر، من خلال تزويده بقدرة فضائية كافية تسمح له بضغط إشارة ثنائية الأبعاد (2D) إلى إشارة أحادية البعد (1D) دون فقدان المعلومات. يمكن تدريب هذه الشبكات المُعدّلة باستخدام نفس الإجراء البسيط الأصلي، وباستخدام أزواج صور ونصوص فقط، دون الحاجة إلى تقسيم مسبق للنصوص. أجرينا مجموعة من التجارب التفسيرية التي تُظهر أن النماذج المدربة تتعلم تقسيمًا ضمنيًا دقيقًا للسطور. وحققنا أفضل معدلات في خطأ الحرف على معايير التعرف على الكتابة اليدوية IAM وICDAR 2017 HTR، متفوّقين على جميع الأساليب المنشورة في الأدبيات السابقة. بل وتخطينا حتى النماذج الأحادية السطرية التي تستخدم معلومات دقيقة عن التحديد المكاني أثناء التدريب. يُمكن الوصول إلى الكود الخاص بنا عبر الإنترنت من خلال الرابط: \url{https://github.com/IntuitionMachines/OrigamiNet}.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp