DewarpNet : Déformation unique d'images de documents avec des réseaux de régression empilés 3D et 2D

La capture d’images de documents à l’aide de dispositifs portables dans des environnements non structurés est une pratique courante aujourd’hui. Toutefois, les photos « informelles » de documents sont généralement inadaptées à l’extraction automatique d’informations, principalement en raison de distorsions physiques du papier, ainsi que des variations de position de l’appareil photo et des conditions d’éclairage. Dans ce travail, nous proposons DewarpNet, une approche fondée sur l’apprentissage profond pour le déformage d’images de documents à partir d’une seule image. Notre intuition repose sur le fait que la géométrie 3D du document détermine non seulement la déformation de son texte, mais aussi les effets d’éclairage. Par conséquent, notre originalité réside dans la modélisation explicite de la forme 3D du papier dans une chaîne de traitement end-to-end. Par ailleurs, nous introduisons le plus grand et le plus complet jeu de données à ce jour dédié au déformage d’images de documents : Doc3D. Ce jeu de données inclut plusieurs annotations de référence, telles que la forme 3D, les normales de surface, la carte UV, l’image d’albédo, etc. En entraînant DewarpNet sur Doc3D, nous démontrons des performances de pointe, validées par des évaluations qualitatives et quantitatives approfondies. Notre réseau améliore également significativement les performances de reconnaissance optique de caractères (OCR) sur des images de documents capturées, réduisant en moyenne le taux d’erreur de caractères de 42 %. Le code source ainsi que le jeu de données sont désormais publiés.