FeatUp : Un Cadre Indépendant du Modèle pour les Caractéristiques à Toute Résolution

Les caractéristiques profondes sont un pilier de la recherche en vision par ordinateur, capturant les sémantiques des images et permettant à la communauté de résoudre des tâches en aval, même dans le régime de zéro ou de quelques exemples. Cependant, ces caractéristiques manquent souvent de résolution spatiale pour effectuer directement des tâches de prédiction dense comme la segmentation et la prédiction de profondeur, car les modèles rassemblent agressivement l'information sur de grandes zones. Dans ce travail, nous présentons FeatUp, un cadre générique en termes de tâche et de modèle visant à restaurer l'information spatiale perdue dans les caractéristiques profondes. Nous introduisons deux variantes de FeatUp : l'une guide les caractéristiques avec un signal haute résolution lors d'un seul passage en avant, et l'autre ajuste un modèle implicite à une seule image pour reconstruire les caractéristiques à toute résolution. Les deux approches utilisent une perte de cohérence multi-vue avec des analogies profondes aux NeRFs (Neural Radiance Fields). Nos caractéristiques conservent leur sémantique originale et peuvent être intégrées dans des applications existantes pour améliorer la résolution et les performances sans réentraînement. Nous démontrons que FeatUp surpasse significativement d'autres méthodes d'échantillonnage de caractéristiques et de super-résolution d'images dans la génération de cartes d'activation de classe, le transfert d'apprentissage pour la segmentation et la prédiction de profondeur, ainsi que l'entraînement end-to-end pour la segmentation sémantique.