HyperAIHyperAI
il y a 11 jours

OpenSD : Segmentations et détection à vocabulaire ouvert unifiés

Shuai Li, Minghan Li, Pengfei Wang, Lei Zhang
OpenSD : Segmentations et détection à vocabulaire ouvert unifiés
Résumé

Récemment, quelques méthodes à vocabulaire ouvert ont été proposées en utilisant une architecture unifiée pour traiter les tâches générales de segmentation et de détection. Toutefois, leurs performances restent inférieures à celles des modèles spécifiques à chaque tâche en raison du conflit entre les différentes tâches, et leur capacité à gérer un vocabulaire ouvert est limitée en raison d'une utilisation insuffisante de CLIP. Pour relever ces défis, nous présentons un cadre fondé sur un transformateur universel, abrégé en OpenSD, qui utilise la même architecture et les mêmes paramètres de réseau pour traiter les tâches de segmentation et de détection à vocabulaire ouvert. Premièrement, nous introduisons une stratégie d'apprentissage découplée du décodeur afin de réduire le conflit sémantique entre les catégories « thing » et « stuff », permettant ainsi à chaque tâche individuelle d'être apprise de manière plus efficace dans le même cadre. Deuxièmement, afin d’exploiter de manière optimale CLIP pour la segmentation et la détection en bout à bout, nous proposons deux classifieurs distincts, chacun dédié respectivement au domaine « in-vocabulary » et au domaine « out-of-vocabulary ». L’encodeur de texte est par la suite entraîné pour devenir sensible aux régions, tant pour les catégories « thing » que pour les catégories « stuff », grâce à un apprentissage de prompt découplé, ce qui lui permet de filtrer les prédictions redondantes et de faible qualité, une fonction essentielle pour la segmentation et la détection en bout à bout. Des expériences étendues ont été menées sur plusieurs jeux de données dans diverses conditions. Les résultats montrent qu’OpenSD surpassent les méthodes les plus avancées de segmentation et de détection à vocabulaire ouvert, tant dans les configurations à vocabulaire fermé qu’à vocabulaire ouvert. Le code source est disponible à l’adresse suivante : https://github.com/strongwolf/OpenSD

OpenSD : Segmentations et détection à vocabulaire ouvert unifiés | Articles de recherche récents | HyperAI