Estimation de la profondeur d’image dans le domaine des bandes dessinées

L’estimation de la profondeur dans les images de bandes dessinées est un défi en raison de plusieurs facteurs : a) ces images sont monoculaires ; b) elles ne disposent pas d’étiquetages de profondeur réelle (ground-truth) ; c) elles varient considérablement selon les styles artistiques ; d) elles sont souvent éparse et bruitées. Pour relever ce défi, nous utilisons une méthode d’translation d’images à images, non supervisée et disponible en standard, afin de convertir les images de bandes dessinées en images naturelles, puis nous appliquons un estimateur de profondeur monocular guidé par l’attention pour prédire la profondeur. Cette approche nous permet de tirer parti des annotations de profondeur déjà disponibles sur les images naturelles afin d’entraîner notre estimateur. En outre, notre modèle apprend à distinguer entre le texte et les éléments visuels dans les cases de bande dessinée, ce qui permet de réduire les artefacts liés au texte dans les estimations de profondeur. Notre méthode surpasse de manière cohérente les approches les plus avancées de l’état de l’art sur tous les critères d’évaluation, tant sur les images du jeu de données DCM que sur celles du jeu eBDtheque. Enfin, nous introduisons un nouveau jeu de données dédié à l’évaluation de la prédiction de profondeur dans les bandes dessinées. Le site web de notre projet est accessible à l’adresse suivante : https://github.com/IVRL/ComicsDepth.