HyperAIHyperAI

Command Palette

Search for a command to run...

GIM : Apprentissage d'un correspondant d'images généralisable à partir de vidéos internet

Shen Xuelun ; Cai Zhipeng ; Yin Wei ; Müller Matthias ; Li Zijun ; Wang Kaixuan ; Chen Xiaozhi ; Wang Cheng

Résumé

L'appariement d'images est un problème fondamental en vision par ordinateur. Bien que les méthodes basées sur l'apprentissage atteignent des performances de pointe sur les benchmarks existants, elles généralisent mal aux images réelles. Ces méthodes nécessitent généralement de former des modèles distincts pour différents types de scènes et sont peu pratiques lorsque le type de scène est inconnu à l'avance. Un des problèmes sous-jacents est la scalabilité limitée des pipelines de construction de données existants, ce qui restreint la diversité des jeux de données standards d'appariement d'images. Pour résoudre ce problème, nous proposons GIM, un cadre d'auto-formation permettant d'apprendre un seul modèle généralisable basé sur n'importe quelle architecture d'appariement d'images en utilisant des vidéos Internet, une source de données abondante et variée. Étant donné une architecture, GIM la forme initialement sur des jeux de données spécifiques au domaine, puis la combine avec des méthodes complémentaires d'appariement pour créer des étiquettes densément réparties sur les images adjacentes de nouvelles vidéos. Ces étiquettes sont filtrées par ajustement robuste, puis améliorées en les propageant vers des images éloignées. Le modèle final est formé sur les données propagées avec des augmentations puissantes. Nous proposons également ZEB, le premier benchmark d'évaluation sans apprentissage supervisé pour l'appariement d'images. En mélangeant des données provenant de domaines variés, ZEB peut évaluer en profondeur la performance de généralisation inter-domaines de différentes méthodes. L'utilisation de GIM améliore constamment la performance sans apprentissage supervisé de 3 architectures d'avant-garde en appariement d'images ; avec 50 heures de vidéos YouTube, la performance relative sans apprentissage supervisé s'améliore de 8,4% à 18,1%. GIM permet également la généralisation à des données extrêmes inter-domaines telles que les images en vue oiseau (BEV) de nuages de points projetés en 3D (Fig. 1(c)). Plus important encore, notre unique modèle sans apprentissage supervisé surpassent constamment les modèles basés sur le domaine lorsqu'ils sont évalués sur des tâches descendantes inhérentes à leurs domaines respectifs. La présentation vidéo est disponible à l'adresse suivante : https://www.youtube.com/watch?v=FU_MJLD8LeY.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp