ASteISR : Adaptation d'un modèle pré-entraîné de super-résolution d'image unique pour une super-résolution stéréoscopique efficace

Malgré les progrès réalisés dans le paradigme de pré-entraînement puis d'ajustement fin en tâches de vision bas niveau, des défis importants subsistent, notamment en ce qui concerne l'augmentation de la taille des modèles pré-entraînés, tels que l'utilisation de la mémoire et le temps d'entraînement. Un autre problème souvent rencontré est celui des résultats insatisfaisants obtenus lors de l'application directe de modèles pré-entraînés pour une seule image à un domaine multi-images. Dans cet article, nous proposons une méthode efficace pour transférer un réseau transformateur pré-entraîné pour la sur-résolution d'une seule image (SISR) au domaine de la sur-résolution stéréoscopique d'images (SteISR) grâce à une méthode d'ajustement fin paramétriquement efficace (PEFT). Plus précisément, nous introduisons les concepts d'adaptateurs stéréoscopiques et d'adaptateurs spatiaux, qui sont intégrés au réseau transformateur SISR pré-entraîné. Par la suite, le modèle SISR pré-entraîné est figé, ce qui nous permet d'ajuster finement les adaptateurs en utilisant des jeux de données stéréoscopiques uniquement. En adoptant cette méthode d'entraînement, nous améliorons la capacité du modèle SISR à inférer correctement les images stéréoscopiques de 0,79 dB sur l'ensemble de données Flickr1024. Cette méthode nous permet également de n'entraîner que 4,8 % des paramètres du modèle original, atteignant des performances de pointe sur quatre benchmarks SteISR couramment utilisés. Comparée à l'approche plus complexe de l'ajustement fin complet, notre méthode réduit respectivement le temps d'entraînement et la consommation mémoire de 57 % et 15 %.