Segmentation Universelle à Granularité Arbitraire avec Instructions Linguistiques

Ce travail vise à réaliser une segmentation universelle à tout niveau sémantique. Malgré les progrès significatifs réalisés ces dernières années, les approches de segmentation spécialisées sont limitées à des tâches et des distributions de données spécifiques. Le réentraînement d'un nouveau modèle pour s'adapter à de nouveaux scénarios ou paramètres est coûteux en termes de calcul et de temps, ce qui soulève la nécessité d'un modèle de segmentation polyvalent et universel capable de répondre à diverses granularités. Bien que quelques tentatives aient été faites pour unifier différentes tâches de segmentation ou généraliser à divers scénarios, les limitations dans la définition des paradigmes et des espaces d'entrée-sortie rendent difficile leur capacité à atteindre une compréhension précise du contenu à toute granularité. À cet égard, nous présentons UniLSeg, un modèle de segmentation universelle capable d'effectuer la segmentation à tout niveau sémantique sous la guidance d'instructions linguistiques. Pour l'entraînement de UniLSeg, nous avons regroupé un ensemble de tâches provenant de distributions initialement diverses en un format de données unifié, où les images avec des textes décrivant les cibles de segmentation servent d'entrée et les masques correspondants sont produits en sortie. Associé à un moteur d'annotation automatique pour exploiter une grande quantité de données non étiquetées, UniLSeg obtient des performances excellentes sur diverses tâches et paramètres, surpassant tant les modèles spécialisés que ceux unifiés.