HyperAIHyperAI
vor 2 Monaten

DatUS^2: Datengetriebene unsupervisierte semantische Segmentierung mit vortrainiertem selbstsupervisieren Vision Transformer

Sonal Kumar; Arijit Sur; Rashmi Dutta Baruah
DatUS^2: Datengetriebene unsupervisierte semantische Segmentierung mit vortrainiertem selbstsupervisieren Vision Transformer
Abstract

Vorschläge verschiedener selbstüberwachter Trainingsverfahren folgen einander in rascher Folge und bringen uns einen Schritt näher an die Entwicklung eines universellen Grundmodells. In diesem Prozess werden unüberwachte Downstream-Aufgaben als eine der Evaluationsmethoden erkannt, um die Qualität der mit einem selbstüberwachten Trainingsverfahren gelernten visuellen Merkmale zu überprüfen. Allerdings wurde unüberwachte dichte semantische Segmentierung bisher nicht als Downstream-Aufgabe untersucht, die es ermöglicht, die Qualität der im Patch-Level-Feature-Darstellung während des selbstüberwachten Trainings eines Vision Transformers eingeführten semantischen Informationen zu nutzen und zu bewerten. Daher schlägt dieser Artikel einen neuen datengetriebenen Ansatz für unüberwachte semantische Segmentierung (DatUS^2) als Downstream-Aufgabe vor. DatUS^2 erstellt semantisch konsistente und dichte Pseudo-Segmentierungs-Masken für den nicht annotierten Bild-Datensatz, ohne dabei auf visuelle Vorinformationen oder synchronisierte Daten zurückzugreifen. Wir vergleichen diese Pseudo-annotierten Segmentierungs-Masken mit den Ground-Truth-Masken, um aktuelle selbstüberwachte Trainingsverfahren zur Lernung gemeinsamer semantischer Eigenschaften auf Patch-Ebene und diskriminativer semantischer Eigenschaften auf Segmentebene zu evaluieren. Schließlich bewerten wir existierende state-of-the-art selbstüberwachte Trainingsverfahren mit unserer vorgeschlagenen Downstream-Aufgabe, nämlich DatUS^2. Die beste Version von DatUS^2 übertreffen zudem die bisherigen state-of-the-art-Methoden für die Aufgabe der unüberwachten dichten semantischen Segmentierung mit 15,02 % MiOU (Mean Intersection over Union) und 21,47 % Pixelgenauigkeit auf dem SUIM-Datensatz. Sie erreicht auch eine wettbewerbsfähige Genauigkeit für große und komplexe Datensätze wie den COCO-Datensatz.

DatUS^2: Datengetriebene unsupervisierte semantische Segmentierung mit vortrainiertem selbstsupervisieren Vision Transformer | Neueste Forschungsarbeiten | HyperAI