Command Palette
Search for a command to run...
GIM : Apprentissage d'un correspondant d'images généralisable à partir de vidéos internet
GIM : Apprentissage d'un correspondant d'images généralisable à partir de vidéos internet
Shen Xuelun ; Cai Zhipeng ; Yin Wei ; Müller Matthias ; Li Zijun ; Wang Kaixuan ; Chen Xiaozhi ; Wang Cheng
Résumé
L'appariement d'images est un problème fondamental en vision par ordinateur. Bien que les méthodes basées sur l'apprentissage atteignent des performances de pointe sur les benchmarks existants, elles généralisent mal aux images réelles. Ces méthodes nécessitent généralement de former des modèles distincts pour différents types de scènes et sont peu pratiques lorsque le type de scène est inconnu à l'avance. Un des problèmes sous-jacents est la scalabilité limitée des pipelines de construction de données existants, ce qui restreint la diversité des jeux de données standards d'appariement d'images. Pour résoudre ce problème, nous proposons GIM, un cadre d'auto-formation permettant d'apprendre un seul modèle généralisable basé sur n'importe quelle architecture d'appariement d'images en utilisant des vidéos Internet, une source de données abondante et variée. Étant donné une architecture, GIM la forme initialement sur des jeux de données spécifiques au domaine, puis la combine avec des méthodes complémentaires d'appariement pour créer des étiquettes densément réparties sur les images adjacentes de nouvelles vidéos. Ces étiquettes sont filtrées par ajustement robuste, puis améliorées en les propageant vers des images éloignées. Le modèle final est formé sur les données propagées avec des augmentations puissantes. Nous proposons également ZEB, le premier benchmark d'évaluation sans apprentissage supervisé pour l'appariement d'images. En mélangeant des données provenant de domaines variés, ZEB peut évaluer en profondeur la performance de généralisation inter-domaines de différentes méthodes. L'utilisation de GIM améliore constamment la performance sans apprentissage supervisé de 3 architectures d'avant-garde en appariement d'images ; avec 50 heures de vidéos YouTube, la performance relative sans apprentissage supervisé s'améliore de 8,4% à 18,1%. GIM permet également la généralisation à des données extrêmes inter-domaines telles que les images en vue oiseau (BEV) de nuages de points projetés en 3D (Fig. 1(c)). Plus important encore, notre unique modèle sans apprentissage supervisé surpassent constamment les modèles basés sur le domaine lorsqu'ils sont évalués sur des tâches descendantes inhérentes à leurs domaines respectifs. La présentation vidéo est disponible à l'adresse suivante : https://www.youtube.com/watch?v=FU_MJLD8LeY.