RectiNet-v2: هي بنية شبكة متعددة الطبقات لتصحيح تشوهات صور المستندات

مع ظهور الكاميرات المحمولة واليدوية، أصبحت صور المستندات شائعة في معظم المجالات. وتصبح عملية تصحيح التشوهات الناتجة عن الانحناءات والانعكاسات البصرية والطي ضرورية لتمكين خوارزميات التعرف على المستندات من فهم هذه الصور. ولتحقيق ذلك، نقترح بنية شبكية عصبية متعددة الطبقات (CNN) تعمل من البداية إلى النهاية، وتُنتج صورًا خالية من التشوهات من صور مستندات مشوهة كمدخلات. تم تدريب هذا النموذج على صور مستندات مشوهة تم محاكاتها بشكل اصطناعي، وذلك لتعويض نقص البيانات الطبيعية الكافية. يتميز هذا الأسلوب بثلاثة عناصر جديدة: استخدام مُفكِّك مُتفرع (bifurcated decoder) مع مشاركة الأوزان لمنع الخلط بين إحداثيات الشبكة، واستخدام الشبكات المتبقية (residual networks) في روابط التخطي (skip connections) ضمن هيكل U-Net لتمكين تدفق البيانات من مجالات استقبال مختلفة داخل النموذج، بالإضافة إلى استخدام شبكة مُنظمة (gated network) لمساعد النموذج على التركيز على التفاصيل الهيكلية وتفاصيل الخطوط في صورة المستند. تم تقييم الأسلوب على مجموعة بيانات DocUNet، وهي مجموعة معيارية في هذا المجال، وتم تحقيق نتائج مماثلة لأفضل الأساليب الحالية.