HyperAIHyperAI

Command Palette

Search for a command to run...

DocUNet: تفكيك صور المستندات عبر U-Net متعددة الطبقات

Jue Wang Xue Bai Zhixin Shu Ke Ma Dimitris Samaras

الملخص

إن التقاط صور المستندات يُعد طريقة شائعة لتحويل المستندات الورقية إلى صيغ رقمية وتوثيقها، نظرًا لانتشار كاميرات الهواتف المحمولة. ومن أجل تسهيل عملية التعرف على النص، يُعد من الرغبات الشائعة تسطيح الصورة الرقمية للمستند عند انحناء أو طي الورقة الفعلية. في هذه الورقة، نطور أول طريقة تعتمد على التعلم لتحقيق هذا الهدف. نقترح بنية U-Net متعددة الطبقات مع مراقبة وسطية، لتوقع الخريطة المباشرة من الصورة المشوهة إلى نسخة مُسطّحة لها. وبما أن جمع بيانات واقعية على نطاق واسع مع معلومات الحالة الحقيقية للتشوه أمر صعب، فقد أنشأنا مجموعة بيانات مُصَنَّعة تتضمن حوالي 100 ألف صورة، وذلك بتحوير صور مستندات غير مشوهة. وتم تدريب الشبكة على هذه المجموعة باستخدام تقنيات متعددة للتكبير الاصطناعي للبيانات، بهدف تعزيز قدرتها على التعميم. كما أنشأنا أيضًا معيارًا شاملاً يغطي مجموعة متنوعة من الظروف الواقعية. وقد قمنا بتقييم النموذج المقترح بشكل كمي ونوعي على هذا المعيار، وقارنّاه بطرق سابقة تعتمد على أساليب غير قائمة على التعلم.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
DocUNet: تفكيك صور المستندات عبر U-Net متعددة الطبقات | مستندات | HyperAI