Un module U-Net empilé à gated et à bifurcation pour le débosselage d’images de documents

La capture d’images de documents constitue l’une des méthodes les plus simples et les plus couramment utilisées pour les enregistrer. Toutefois, ces images, prises à l’aide de dispositifs portables, sont souvent sujettes à des distorsions indésirables difficiles à corriger. Nous proposons un module supervisé basé sur un U-Net empilé à bifurcation et à portes, destiné à prédire une grille de déformation et à reconstruire une image sans distorsion à partir de l’entrée. Bien que le réseau soit entraîné sur des images de documents artificiellement déformées, les résultats sont évalués sur des images réelles du monde réel. La nouveauté de notre méthode réside non seulement dans la bifurcation de l’U-Net, qui permet d’éviter le mélange des coordonnées de la grille, mais également dans l’utilisation d’un réseau à portes, qui enrichit le modèle avec des détails fins au niveau des contours et des lignes subtiles. La chaîne de traitement end-to-end proposée atteint une performance de pointe sur le jeu de données DocUNet, après un entraînement effectué sur seulement 8 % des données utilisées dans les méthodes antérieures.