HyperAIHyperAI

Command Palette

Search for a command to run...

Segmentation sémantique à vocabulaire ouvert avec CLIP adapté par masque

Feng Liang Bichen Wu Xiaoliang Dai Kunpeng Li Yinan Zhao Hang Zhang Peizhao Zhang Peter Vajda Diana Marculescu

Résumé

La segmentation sémantique à vocabulaire ouvert vise à segmenter une image en régions sémantiques selon des descriptions textuelles, qui n’ont pas nécessairement été vues durant l’apprentissage. Les méthodes récentes à deux étapes génèrent d’abord des propositions de masques indépendantes de classe, puis utilisent des modèles vision-langage pré-entraînés, tels que CLIP, pour classifier les régions masquées. Nous identifions le goulot d’étranglement de cette approche comme étant le modèle CLIP pré-entraîné, qui ne se comporte pas efficacement sur des images masquées. Pour remédier à cela, nous proposons de fine-tuner CLIP sur une collection de régions d’images masquées accompagnées de leurs descriptions textuelles correspondantes. Nous constituons les données d’entraînement en exploitant un jeu de données existant d’images et de légendes (par exemple, COCO Captions), en utilisant CLIP pour associer les régions masquées aux noms propres présents dans les légendes. Contrairement aux étiquettes de segmentation plus précises et manuellement annotées, avec des classes fixes (par exemple, COCO-Stuff), nous constatons que notre jeu de données bruité mais diversifié permet de mieux préserver la capacité de généralisation de CLIP. En parallèle de l’entraînement fin (fine-tuning) de tout le modèle, nous exploitons les zones « vides » des images masquées via une méthode que nous appelons mask prompt tuning. Les expériences montrent que cette approche apporte une amélioration significative sans modifier aucun poids de CLIP, et peut même renforcer davantage un modèle entièrement fine-tuné. En particulier, lorsque le modèle est entraîné sur COCO et évalué sur ADE20K-150, notre meilleur modèle atteint un mIoU de 29,6 %, soit une amélioration de +8,5 % par rapport à l’état de l’art précédent. Pour la première fois, les modèles généralistes à vocabulaire ouvert atteignent les performances des modèles spécialisés supervisés de 2017, sans nécessiter d’adaptation spécifique au jeu de données.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp