HyperAIHyperAI
vor 2 Monaten

Stark aber einfach: Eine Baseline für domänenverallgemeinerte dichte Wahrnehmung durch CLIP-basiertes Transferlernen

Christoph Hümmer; Manuel Schwonberg; Liangwei Zhou; Hu Cao; Alois Knoll; Hanno Gottschalk
Stark aber einfach: Eine Baseline für domänenverallgemeinerte dichte Wahrnehmung durch CLIP-basiertes Transferlernen
Abstract

Domain Generalization (DG) stellt weiterhin eine erhebliche Herausforderung für die Wahrnehmung auf Basis tiefer neuronaler Netze (DNNs) dar, bei der Domänenverschiebungen aufgrund synthetischer Daten, Beleuchtungs-, Wetters oder Standortänderungen auftreten. Vision-Sprach-Modelle (VLMs) haben einen großen Schritt in Richtung Generalisierungsfähigkeiten markiert und wurden bereits auf verschiedene Aufgaben angewendet. Sehr kürzlich nutzten erste Ansätze VLMs für domänenverallgemeinernde Segmentierung und Objekterkennung und erzielten starke Generalisierungsleistungen. Überraschenderweise stellten wir jedoch fest, dass einfine Feinabstimmung von vision-sprachlichen Vortrainingsmodellen wettbewerbsfähige oder sogar noch bessere Generalisierungsergebnisse liefert und dabei extrem einfach anzuwenden ist. Darüber hinaus konnten wir nachweisen, dass das vision-sprachliche Vortraining konsistent bessere Generalisierungsergebnisse als das bisherige Standardvortraining nur mit visuellen Daten bietet. Dies stellt die Verwendung von ImageNet-basiertem Transfer Learning für Domain Generalization in Frage. Die vollständige Feinabstimmung eines vision-sprachlichen Vortrainingsmodells ist in der Lage, den aktuellen Stand der Technik (SOTA) zu erreichen, wenn es auf dem synthetischen GTA5-Datensatz trainiert wird. Zudem bestätigen wir diese Beobachtung für die Objekterkennung an einem neuen Benchmark zur Übertragung von synthetisch zu realen Daten. Durch unsere Methode erzielen wir zudem überlegene Generalisierungsfähigkeiten mit 77,9 % mIoU auf dem beliebten Cityscapes-to-ACDC-Benchmark. Wir konnten auch eine verbesserte In-Domain-Generalisierung nachweisen, was zu einem verbesserten SOTA von 86,4 % mIoU auf dem Cityscapes-Testdatensatz führt und uns den ersten Platz im Leaderboard sichert.