HyperAIHyperAI
il y a 16 jours

Matcher : Segmenter n'importe quoi avec une seule image en utilisant un matching de caractéristiques polyvalent

Yang Liu, Muzhi Zhu, Hengtao Li, Hao Chen, Xinlong Wang, Chunhua Shen
Matcher : Segmenter n'importe quoi avec une seule image en utilisant un matching de caractéristiques polyvalent
Résumé

Grâce au pré-entraînement à grande échelle, les modèles fondamentaux de vision montrent un potentiel important pour la compréhension d’images dans un monde ouvert. Toutefois, contrairement aux modèles de langage massifs qui excellent dans la résolution directe de diverses tâches linguistiques, les modèles fondamentaux de vision nécessitent une architecture de modèle spécifique, suivie d’un fine-tuning sur des tâches précises. Dans ce travail, nous présentons Matcher, un nouveau paradigme de perception qui exploite des modèles fondamentaux de vision disponibles en tant que tels pour traiter diverses tâches de perception. Matcher permet de segmenter n’importe quoi en utilisant simplement un exemple contextuel, sans nécessiter d’entraînement. En outre, nous avons conçu trois composants efficaces au sein du cadre Matcher, qui coopèrent avec ces modèles fondamentaux afin de libérer tout leur potentiel dans des tâches de perception variées. Matcher démontre des performances de généralisation impressionnantes sur diverses tâches de segmentation, toutes sans entraînement. Par exemple, il atteint un mIoU de 52,7 % sur COCO-20$^i$ avec un seul exemple, dépassant le modèle spécialisé de pointe de 1,6 %. En outre, Matcher obtient un mIoU de 33,0 % sur le nouveau jeu de données LVIS-92$^i$ pour la segmentation sémantique à un exemple, surpassant le modèle généraliste de pointe de 14,4 %. Nos résultats de visualisation mettent également en évidence de manière convaincante la généralité et la flexibilité du cadre Matcher lorsqu’il est appliqué à des images issues du monde réel. Le code est disponible à l’adresse suivante : https://github.com/aim-uofa/Matcher.

Matcher : Segmenter n'importe quoi avec une seule image en utilisant un matching de caractéristiques polyvalent | Articles de recherche récents | HyperAI