HyperAIHyperAI
il y a 2 mois

Segmentation sémantique à vocabulaire ouvert avec équilibrage d'embedding d'image

Xiangheng Shan; Dongyue Wu; Guilin Zhu; Yuanjie Shao; Nong Sang; Changxin Gao
Segmentation sémantique à vocabulaire ouvert avec équilibrage d'embedding d'image
Résumé

La segmentation sémantique à vocabulaire ouvert est une tâche complexe qui nécessite que le modèle génère des masques sémantiques d'une image au-delà d'un vocabulaire fermé. Bien que de nombreux efforts aient été déployés pour utiliser les modèles puissants CLIP afin d'accomplir cette tâche, ils restent facilement sujets à un surapprentissage des classes d'entraînement en raison des écarts naturels en information sémantique entre les classes d'entraînement et les nouvelles classes. Pour surmonter ce défi, nous proposons un cadre novateur pour la segmentation sémantique à vocabulaire ouvert appelé EBSeg, intégrant un Décodeur Équilibré de Façon Adaptative (AdaB Decoder) et une Perte de Cohérence de Structure Sémantique (SSC Loss). Le Décodeur AdaB est conçu pour produire des plongements d'image différents pour les classes d'entraînement et les nouvelles classes. Par la suite, ces deux types de plongements sont équilibrés de manière adaptative afin d'exploiter pleinement leur capacité à reconnaître les classes d'entraînement et leur aptitude à généraliser pour les nouvelles classes. Pour apprendre une structure sémantique cohérente à partir de CLIP, la Perte SSC aligne l'affinité inter-classes dans l'espace des caractéristiques d'image avec celle dans l'espace des caractéristiques textuelles de CLIP, améliorant ainsi la capacité de généralisation de notre modèle. De plus, nous utilisons un encodeur d'image SAM figé pour compléter l'information spatiale que les caractéristiques CLIP manquent en raison de la faible résolution des images d'entraînement et de la supervision au niveau des images inhérente à CLIP. Des expériences approfondies menées sur diverses基准 (benchmarks) montrent que le EBSeg proposé surpasses les méthodes les plus avancées actuellement disponibles. Notre code source et nos modèles entraînés seront disponibles ici : https://github.com/slonetime/EBSeg.注:在“diverses基准”中,“基准”通常翻译为“benchmarks”。为了确保信息完整,我在法语译文中保留了括号标注原文。

Segmentation sémantique à vocabulaire ouvert avec équilibrage d'embedding d'image | Articles de recherche récents | HyperAI