HyperAIHyperAI

Command Palette

Search for a command to run...

RectiNet-v2 : une architecture de réseau empilé pour le dégauchissage d’images de documents

Hmrishav Bandyopadhyay Tanmoy Dasgupta Nibaran Das Mita Nasipuri

Résumé

Grâce à l'émergence des caméras mobiles et portables, les images de documents ont envahi presque tous les domaines. La déformation (dewarping) de ces images, afin d’éliminer les distorsions perspectives et les plis, est essentielle pour permettre leur interprétation par des algorithmes de reconnaissance de documents. À cet effet, nous proposons une architecture CNN end-to-end capable de produire des images de documents sans distorsion à partir d’images initiales déformées. Nous entraînons ce modèle sur des images de documents déformées générées de manière synthétique, afin de compenser le manque de données naturelles suffisantes. Notre méthode se distingue par l’utilisation d’un décodeur bifurqué à poids partagés, destiné à éviter le mélange des coordonnées du maillage ; par l’intégration de réseaux résiduels dans les connexions d’ajustement (skip connections) du U-Net, permettant ainsi le transfert d’informations provenant de champs réceptifs variés au sein du modèle ; et par l’emploi d’un réseau à portes (gated network) afin d’aider le modèle à se concentrer sur les détails structurels et de lignes présents dans l’image du document. Nous évaluons notre approche sur le jeu de données DocUNet, un standard de référence dans ce domaine, et obtenons des résultats comparables aux méthodes les plus avancées de l’état de l’art.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp