EVP : Perception visuelle améliorée par raffinement inversé des caractéristiques multi-attentives et alignement image-texte régularisé

Ce travail présente l'architecture réseau EVP (Enhanced Visual Perception). EVP s'appuie sur un travail précédent, VPD, qui a ouvert la voie à l'utilisation du modèle Stable Diffusion pour des tâches de vision par ordinateur. Nous proposons deux améliorations majeures. Premièrement, nous développons le module IMAFR (Inverse Multi-Attentive Feature Refinement), qui renforce les capacités d'apprentissage des caractéristiques en agrégant des informations spatiales provenant des niveaux hiérarchiques supérieurs de la pyramide. Deuxièmement, nous introduisons un nouveau module d'alignement image-texte, conçu pour améliorer l'extraction des caractéristiques au sein du noyau Stable Diffusion. L'architecture résultante est adaptée à une large gamme de tâches, et nous démontrons ses performances dans le cadre de l'estimation de profondeur à partir d'une seule image, utilisant un décodeur spécialisé basé sur des classes binaires, ainsi que dans celui de la segmentation par référence, avec un décodeur prêt à l'emploi. Des expériences approfondies menées sur des jeux de données établis montrent qu'EVP atteint des résultats de pointe pour l'estimation de profondeur à partir d'une seule image, tant dans des environnements intérieurs (NYU Depth v2, amélioration de 11,8 % en RMSE par rapport à VPD) que dans des environnements extérieurs (KITTI), ainsi que pour la segmentation par référence (RefCOCO, amélioration de 2,53 en IoU par rapport à ReLA). Le code source et les modèles pré-entraînés sont disponibles publiquement à l'adresse suivante : https://github.com/Lavreniuk/EVP.