Un schéma d’adaptation de domaine non supervisé pour la reconnaissance d’œuvres d’art à étape unique dans les sites culturels

La reconnaissance d'œuvres d'art dans un site culturel à partir d'images acquises depuis le point de vue de l'utilisateur (First Person Vision) permet de développer des applications pertinentes tant pour les visiteurs que pour les gestionnaires du site. Toutefois, les algorithmes actuels de détection d'objets fonctionnant dans un cadre entièrement supervisé nécessitent d’être entraînés sur de grandes quantités de données étiquetées, dont la collecte exige beaucoup de temps et des coûts élevés pour atteindre de bonnes performances. L’utilisation de données synthétiques générées à partir d’un modèle 3D du site culturel peut réduire ces coûts. D’un autre côté, lorsque ces modèles sont évalués sur des images réelles, une baisse significative de performance est observée en raison des différences entre les images réelles et les images synthétiques. Dans cette étude, nous abordons le problème de l’adaptation de domaine non supervisée pour la détection d’objets dans les sites culturels. Pour résoudre ce problème, nous avons créé un nouveau jeu de données comprenant à la fois des images réelles et synthétiques de 16 œuvres d’art différentes. Nous avons ensuite étudié diverses techniques d’adaptation de domaine basées sur des détecteurs à une étape et à deux étapes, la translation image à image, ainsi que l’alignement des caractéristiques. À la suite de l’observation selon laquelle les détecteurs à une étape sont plus robustes au décalage de domaine dans les conditions considérées, nous proposons une nouvelle méthode fondée sur RetinaNet et l’alignement des caractéristiques, que nous appelons DA-RetinaNet. L’approche proposée obtient de meilleurs résultats que les méthodes comparées sur le jeu de données proposé ainsi que sur Cityscapes. Pour soutenir la recherche dans ce domaine, nous mettons à disposition le jeu de données à l’adresse suivante : https://iplab.dmi.unict.it/EGO-CH-OBJ-UDA/ et le code de l’architecture proposée à l’adresse : https://github.com/fpv-iplab/DA-RetinaNet.