HyperAIHyperAI

Command Palette

Search for a command to run...

DewarpNet: تصحيح تقويس المستندات من صورة واحدة باستخدام شبكات انحدار ثلاثية الأبعاد والثنائية الأبعاد المتداخلة

Roy Shilkrot Dimitris Samaras Zhixin Shu Ke Ma Sagnik Das

الملخص

إن التقاط صور المستندات باستخدام أجهزة يدوية في البيئات غير المنظمة أصبح ممارسة شائعة اليوم. ومع ذلك، فإن الصور "العشوائية" للمستندات غالبًا ما تكون غير مناسبة لاستخراج المعلومات تلقائيًا، وذلك أساسًا بسبب التشوهات الفيزيائية في ورقة المستند، بالإضافة إلى تباين مواقع الكاميرا وظروف الإضاءة المختلفة. في هذا العمل، نقترح DewarpNet، وهي منهجية تعتمد على التعلم العميق لاسترجاع صور المستندات من صورة واحدة. وتكمن رؤيتنا في أن الهندسة ثلاثية الأبعاد لورقة المستند لا تحدد فقط تشوه نسيجها، بل تؤدي أيضًا إلى تأثيرات الإضاءة. وبالتالي، تكمن مبتكرتنا في نمذجة صريحة للشكل ثلاثي الأبعاد لورقة المستند ضمن نموذج يعتمد على عملية متكاملة من البداية إلى النهاية. كما نقدّم أكبر مجموعة بيانات وشاملة على الإطلاق لاسترجاع صور المستندات حتى الآن، وهي مجموعة Doc3D. وتتميز هذه المجموعة بوجود العديد من التسميات الحقيقية (ground-truth)، بما في ذلك الشكل ثلاثي الأبعاد، واتجاهات الأسطح، ورسم الخرائط UV، وصورة الالbedo، وغيرها. وباستخدام مجموعة Doc3D في التدريب، نُظهر أداءً متقدمًا للغاية لـ DewarpNet من خلال تقييمات كمية ونوعية واسعة النطاق. كما أن شبكتنا تُحسّن بشكل كبير أداء التعرف البصري على الحروف (OCR) على صور المستندات المُلتَقَطة، حيث تقلل من معدل أخطاء الحروف بمتوسط 42%. تم إصدار كل من الشفرة البرمجية ومجموعة البيانات.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
DewarpNet: تصحيح تقويس المستندات من صورة واحدة باستخدام شبكات انحدار ثلاثية الأبعاد والثنائية الأبعاد المتداخلة | مستندات | HyperAI