HyperAIHyperAI

Command Palette

Search for a command to run...

RectiNet-v2: هي بنية شبكة متعددة الطبقات لتصحيح تشوهات صور المستندات

Hmrishav Bandyopadhyay Tanmoy Dasgupta Nibaran Das Mita Nasipuri

الملخص

مع ظهور الكاميرات المحمولة واليدوية، أصبحت صور المستندات شائعة في معظم المجالات. وتصبح عملية تصحيح التشوهات الناتجة عن الانحناءات والانعكاسات البصرية والطي ضرورية لتمكين خوارزميات التعرف على المستندات من فهم هذه الصور. ولتحقيق ذلك، نقترح بنية شبكية عصبية متعددة الطبقات (CNN) تعمل من البداية إلى النهاية، وتُنتج صورًا خالية من التشوهات من صور مستندات مشوهة كمدخلات. تم تدريب هذا النموذج على صور مستندات مشوهة تم محاكاتها بشكل اصطناعي، وذلك لتعويض نقص البيانات الطبيعية الكافية. يتميز هذا الأسلوب بثلاثة عناصر جديدة: استخدام مُفكِّك مُتفرع (bifurcated decoder) مع مشاركة الأوزان لمنع الخلط بين إحداثيات الشبكة، واستخدام الشبكات المتبقية (residual networks) في روابط التخطي (skip connections) ضمن هيكل U-Net لتمكين تدفق البيانات من مجالات استقبال مختلفة داخل النموذج، بالإضافة إلى استخدام شبكة مُنظمة (gated network) لمساعد النموذج على التركيز على التفاصيل الهيكلية وتفاصيل الخطوط في صورة المستند. تم تقييم الأسلوب على مجموعة بيانات DocUNet، وهي مجموعة معيارية في هذا المجال، وتم تحقيق نتائج مماثلة لأفضل الأساليب الحالية.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp