Pix2Next : Exploitation des modèles fondamentaux de vision pour la traduction d'images RGB vers NIR

Ce document propose Pix2Next, un nouveau cadre de traduction d'image à imageconçu pour relever le défi de la génération d'images dans le proche infrarouge (NIR) de haute qualité à partir d'entrées RGB. Notre approche utilise un modèle fondamental visuel (Vision Foundation Model, VFM) de pointe au sein d'une architecture encodeur-décodeur, intégrant des mécanismes de cross-attention pour améliorer l'intégration des caractéristiques. Cette conception capture des représentations globales détaillées et préserve les caractéristiques spectrales essentielles, traitant la traduction RGB vers NIR comme plus qu'un simple problème de transfert de domaine. Un discriminateur PatchGAN multi-échelle garantit une génération d'images réalistes à différents niveaux de détail, tandis que des fonctions de perte soigneusement conçues associent la compréhension du contexte global à la préservation des caractéristiques locales. Nous avons mené des expériences sur le jeu de données RANUS pour démontrer les avantages de Pix2Next en termes de métriques quantitatives et de qualité visuelle, améliorant le score FID de 34,81 % par rapport aux méthodes existantes. De plus, nous montrons l'utilité pratique de Pix2Next en démontrant une meilleure performance sur une tâche de détection d'objets en aval grâce aux données NIR générées pour augmenter les jeux de données NIR réels limités. L'approche proposée permet d'élargir les jeux de données NIR sans nécessiter d'acquisition ou d'annotation supplémentaires, potentiellement accélérant les progrès dans les applications basées sur la vision par ordinateur utilisant le proche infrarouge (NIR).