HyperAIHyperAI

Command Palette

Search for a command to run...

OpenDAS : Adaptation de domaine à vocabulaire ouvert pour la segmentation 2D et 3D

Gonca Yilmaz Songyou Peng Marc Pollefeys Francis Engelmann Hermann Blum

Résumé

Récemment, les modèles vision-langage (VLMs) ont progressé dans les techniques de segmentation en passant d'une segmentation traditionnelle d'un ensemble fermé de classes d'objets prédéfinis à une segmentation à vocabulaire ouvert (OVS). Cette évolution permet aux utilisateurs de segmenter des classes et des concepts inédits qui n'étaient pas présents lors de l'entraînement du modèle de segmentation. Cependant, cette flexibilité s'accompagne d'un compromis : les méthodes supervisées entièrement sur un ensemble fermé continuent d'offrir de meilleures performances sur les classes de base, c'est-à-dire sur celles pour lesquelles elles ont été explicitement entraînées. Ceci est principalement dû au manque de masques d'entraînement alignés au niveau des pixels pour les VLMs (qui sont entraînés sur des paires image-legendes) et à l'absence de connaissances spécifiques à un domaine, telles que la conduite autonome. Par conséquent, nous proposons la tâche d'adaptation de domaine à vocabulaire ouvert afin d'intégrer des connaissances spécifiques à un domaine dans les VLMs tout en conservant leur nature à vocabulaire ouvert. Grâce à cette approche, nous obtenons une meilleure performance tant sur les classes de base que sur les nouvelles classes. Les méthodes existantes d'adaptation des VLMs améliorent les performances sur les requêtes de base (d'entraînement), mais échouent à préserver pleinement les capacités en ensemble ouvert des VLMs sur les requêtes inédites. Pour remédier à ce défaut, nous combinons un ajustement efficace des paramètres par le biais du prompt tuning avec une stratégie d'entraînement basée sur la perte triplet qui utilise des requêtes négatives auxiliaires. Notamment, notre méthode est la seule approche efficace en termes de paramètres qui dépasse constamment le VLM original sur les nouvelles classes. Nos VLMs adaptés peuvent être intégrés sans heurts dans les pipelines OVS existants, par exemple en améliorant OVSeg de +6,0 % mIoU sur ADE20K pour la segmentation 2D à vocabulaire ouvert et OpenMask3D de +4,1 % AP sur ScanNet++ Offices pour la segmentation 3D d'instances à vocabulaire ouvert sans autres modifications. La page du projet est disponible à l'adresse https://open-das.github.io/.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp