HyperAIHyperAI
vor 8 Tagen

Stärker, Weniger & Überlegen: Die Nutzung von Vision-Grundmodellen für domainspezifische semantische Segmentierung

Zhixiang Wei, Lin Chen, Yi Jin, Xiaoxiao Ma, Tianle Liu, Pengyang Ling, Ben Wang, Huaian Chen, Jinjin Zheng
Stärker, Weniger & Überlegen: Die Nutzung von Vision-Grundmodellen für domainspezifische semantische Segmentierung
Abstract

In diesem Artikel bewerten und nutzen wir zunächst verschiedene Vision-Grundmodell (Vision Foundation Model, VFM) im Kontext der domainspezifisch generalisierten Semantischen Segmentierung (Domain Generalized Semantic Segmentation, DGSS). Getrieben von der Motivation, stärker vortrainierte Modelle und wenige trainierbare Parameter zur Erzielung einer überlegenen Generalisierbarkeit zu kombinieren, stellen wir einen robusten Feinabstimmungsansatz namens Rein vor, der VFMs parameter-effizient für DGSS nutzt. Aufbauend auf einer Reihe von trainierbaren Tokens, die jeweils unterschiedlichen Instanzen zugeordnet sind, verfeinert und leitet Rein präzise die Merkmalskarten jeder Schicht innerhalb des Hauptnetzwerks (Backbone) zur nächsten Schicht weiter. Dieser Prozess erzeugt dabei unterschiedliche Verfeinerungen für verschiedene Kategorien innerhalb eines einzigen Bildes. Mit deutlich weniger trainierbaren Parametern ermöglicht Rein eine effiziente Feinabstimmung von VFMs für DGSS-Aufgaben und übertroffen überraschenderweise sogar die vollständige Parameterfeinabstimmung. Umfassende Experimente unter verschiedenen Bedingungen zeigen, dass Rein die derzeit besten Methoden deutlich übertrifft. Besonders bemerkenswert ist, dass Rein mit lediglich zusätzlich 1 % trainierbarer Parameter innerhalb des fixierten Backbones eine mIoU von 78,4 % auf Cityscapes erreicht – ohne Zugriff auf echte Datensätze städtischer Szenen. Der Quellcode ist unter https://github.com/w1oves/Rein.git verfügbar.

Stärker, Weniger & Überlegen: Die Nutzung von Vision-Grundmodellen für domainspezifische semantische Segmentierung | Neueste Forschungsarbeiten | HyperAI