HyperAIHyperAI
il y a 2 mois

DatUS^2 : Segmentation sémantique non supervisée basée sur les données avec un Transformers visuel auto-supervisé pré-entraîné

Sonal Kumar; Arijit Sur; Rashmi Dutta Baruah
DatUS^2 : Segmentation sémantique non supervisée basée sur les données avec un Transformers visuel auto-supervisé pré-entraîné
Résumé

Des propositions successives de plusieurs schémas d'entraînement auto-supervisé continuent d'émerger, faisant un pas de plus vers le développement d'un modèle fondamental universel. Dans ce processus, les tâches en aval non supervisées sont reconnues comme l'une des méthodes d'évaluation pour valider la qualité des caractéristiques visuelles apprises avec un schéma d'entraînement auto-supervisé. Cependant, la segmentation sémantique dense non supervisée n'a pas encore été explorée en tant que tâche en aval, bien qu'elle puisse utiliser et évaluer la qualité des informations sémantiques introduites dans les représentations de caractéristiques au niveau des patches lors de l'entraînement auto-supervisé d'un transformateur visuel. Par conséquent, cet article propose une nouvelle approche orientée données pour la segmentation sémantique non supervisée (DatUS²) en tant que tâche en aval. DatUS² génère des masques de segmentation pseudo-annotés sémantiquement cohérents et denses pour le jeu de données d'images non étiquetées sans utiliser aucune priorité visuelle ou données synchronisées. Nous comparons ces masques de segmentation pseudo-annotés avec les masques véritables pour évaluer les récentes méthodes d'entraînement auto-supervisé afin d'apprendre des propriétés sémantiques partagées au niveau des patches et des propriétés sémantiques discriminantes au niveau des segments. Enfin, nous évaluons les méthodes actuelles d'entraînement auto-supervisé de pointe avec notre tâche en aval proposée, à savoir DatUS². De plus, la meilleure version de DatUS² surpasse la méthode existante de pointe pour la tâche de segmentation sémantique dense non supervisée avec un score de 15,02 % de MiOU (Mean Intersection over Union) et une précision pixelaire de 21,47 % sur le jeu de données SUIM. Elle atteint également un niveau compétitif de précision pour un jeu de données à grande échelle et complexe, tel que le jeu de données COCO.

DatUS^2 : Segmentation sémantique non supervisée basée sur les données avec un Transformers visuel auto-supervisé pré-entraîné | Articles de recherche récents | HyperAI