Reconnaissance d’image sans prise en compte de la qualité par décodeur inversible

Malgré les performances remarquables des modèles profonds sur les tâches de reconnaissance d’images, ils sont connus pour être sensibles aux perturbations courantes telles que le flou, le bruit ou la faible résolution. L’augmentation de données constitue une approche classique pour construire un modèle robuste en intégrant ces perturbations courantes durant l’apprentissage. Toutefois, une stratégie d’augmentation naïve peut conduire à un modèle non spécialisé face à des perturbations spécifiques, car le modèle tend à apprendre une distribution moyenne parmi toutes les perturbations. Pour atténuer ce problème, nous proposons un nouveau paradigme d’entraînement des réseaux de reconnaissance d’images profonds, capable de produire des caractéristiques similaires à celles d’images propres à partir de toute image de qualité variable, grâce à une architecture neuronale inversible. Notre méthode repose sur deux étapes. Dans la première étape, nous entraînons un réseau inversible uniquement à l’aide d’images propres, sous l’objectif de reconnaissance. Dans la deuxième étape, son inverse – c’est-à-dire le décodeur inversible – est connecté à un nouveau réseau de reconnaissance, et nous entraînons ensemble ce réseau encodeur-décodeur à l’aide d’images propres et corrompues, en tenant compte à la fois des objectifs de reconnaissance et de reconstruction. Notre approche en deux étapes permet au réseau de générer des caractéristiques propres et robustes à partir d’images de toute qualité, en reconstruisant leur version propre via le décodeur inversible. Nous démontrons l’efficacité de notre méthode sur des tâches de classification d’images et de reconnaissance faciale.