il y a 17 jours

RectiNet-v2 : une architecture de réseau empilé pour le dégauchissage d’images de documents

Hmrishav Bandyopadhyay, Tanmoy Dasgupta, Nibaran Das, Mita Nasipuri

Résumé

Grâce à l'émergence des caméras mobiles et portables, les images de documents ont envahi presque tous les domaines. La déformation (dewarping) de ces images, afin d’éliminer les distorsions perspectives et les plis, est essentielle pour permettre leur interprétation par des algorithmes de reconnaissance de documents. À cet effet, nous proposons une architecture CNN end-to-end capable de produire des images de documents sans distorsion à partir d’images initiales déformées. Nous entraînons ce modèle sur des images de documents déformées générées de manière synthétique, afin de compenser le manque de données naturelles suffisantes. Notre méthode se distingue par l’utilisation d’un décodeur bifurqué à poids partagés, destiné à éviter le mélange des coordonnées du maillage ; par l’intégration de réseaux résiduels dans les connexions d’ajustement (skip connections) du U-Net, permettant ainsi le transfert d’informations provenant de champs réceptifs variés au sein du modèle ; et par l’emploi d’un réseau à portes (gated network) afin d’aider le modèle à se concentrer sur les détails structurels et de lignes présents dans l’image du document. Nous évaluons notre approche sur le jeu de données DocUNet, un standard de référence dans ce domaine, et obtenons des résultats comparables aux méthodes les plus avancées de l’état de l’art.