HyperAIHyperAI
منذ 17 أيام

DewarpNet: تصحيح تقويس المستندات من صورة واحدة باستخدام شبكات انحدار ثلاثية الأبعاد والثنائية الأبعاد المتداخلة

{ Roy Shilkrot, Dimitris Samaras, Zhixin Shu, Ke Ma, Sagnik Das}
DewarpNet: تصحيح تقويس المستندات من صورة واحدة باستخدام شبكات انحدار ثلاثية الأبعاد والثنائية الأبعاد المتداخلة
الملخص

إن التقاط صور المستندات باستخدام أجهزة يدوية في البيئات غير المنظمة أصبح ممارسة شائعة اليوم. ومع ذلك، فإن الصور "العشوائية" للمستندات غالبًا ما تكون غير مناسبة لاستخراج المعلومات تلقائيًا، وذلك أساسًا بسبب التشوهات الفيزيائية في ورقة المستند، بالإضافة إلى تباين مواقع الكاميرا وظروف الإضاءة المختلفة. في هذا العمل، نقترح DewarpNet، وهي منهجية تعتمد على التعلم العميق لاسترجاع صور المستندات من صورة واحدة. وتكمن رؤيتنا في أن الهندسة ثلاثية الأبعاد لورقة المستند لا تحدد فقط تشوه نسيجها، بل تؤدي أيضًا إلى تأثيرات الإضاءة. وبالتالي، تكمن مبتكرتنا في نمذجة صريحة للشكل ثلاثي الأبعاد لورقة المستند ضمن نموذج يعتمد على عملية متكاملة من البداية إلى النهاية. كما نقدّم أكبر مجموعة بيانات وشاملة على الإطلاق لاسترجاع صور المستندات حتى الآن، وهي مجموعة Doc3D. وتتميز هذه المجموعة بوجود العديد من التسميات الحقيقية (ground-truth)، بما في ذلك الشكل ثلاثي الأبعاد، واتجاهات الأسطح، ورسم الخرائط UV، وصورة الالbedo، وغيرها. وباستخدام مجموعة Doc3D في التدريب، نُظهر أداءً متقدمًا للغاية لـ DewarpNet من خلال تقييمات كمية ونوعية واسعة النطاق. كما أن شبكتنا تُحسّن بشكل كبير أداء التعرف البصري على الحروف (OCR) على صور المستندات المُلتَقَطة، حيث تقلل من معدل أخطاء الحروف بمتوسط 42%. تم إصدار كل من الشفرة البرمجية ومجموعة البيانات.

DewarpNet: تصحيح تقويس المستندات من صورة واحدة باستخدام شبكات انحدار ثلاثية الأبعاد والثنائية الأبعاد المتداخلة | أحدث الأوراق البحثية | HyperAI