DocUNet: تفكيك صور المستندات عبر U-Net متعددة الطبقات

إن التقاط صور المستندات يُعد طريقة شائعة لتحويل المستندات الورقية إلى صيغ رقمية وتوثيقها، نظرًا لانتشار كاميرات الهواتف المحمولة. ومن أجل تسهيل عملية التعرف على النص، يُعد من الرغبات الشائعة تسطيح الصورة الرقمية للمستند عند انحناء أو طي الورقة الفعلية. في هذه الورقة، نطور أول طريقة تعتمد على التعلم لتحقيق هذا الهدف. نقترح بنية U-Net متعددة الطبقات مع مراقبة وسطية، لتوقع الخريطة المباشرة من الصورة المشوهة إلى نسخة مُسطّحة لها. وبما أن جمع بيانات واقعية على نطاق واسع مع معلومات الحالة الحقيقية للتشوه أمر صعب، فقد أنشأنا مجموعة بيانات مُصَنَّعة تتضمن حوالي 100 ألف صورة، وذلك بتحوير صور مستندات غير مشوهة. وتم تدريب الشبكة على هذه المجموعة باستخدام تقنيات متعددة للتكبير الاصطناعي للبيانات، بهدف تعزيز قدرتها على التعميم. كما أنشأنا أيضًا معيارًا شاملاً يغطي مجموعة متنوعة من الظروف الواقعية. وقد قمنا بتقييم النموذج المقترح بشكل كمي ونوعي على هذا المعيار، وقارنّاه بطرق سابقة تعتمد على أساليب غير قائمة على التعلم.