HyperAIHyperAI
vor 2 Monaten

OpenDAS: Offen-vokabuläre Domänenanpassung für 2D- und 3D-Segmentation

Yilmaz, Gonca ; Peng, Songyou ; Pollefeys, Marc ; Engelmann, Francis ; Blum, Hermann
OpenDAS: Offen-vokabuläre Domänenanpassung für 2D- und 3D-Segmentation
Abstract

Kürzlich haben Vision-Sprachmodelle (VLMs) Segmentierungstechniken durch den Übergang von der traditionellen Segmentierung einer abgeschlossenen Menge vordefinierter Objektklassen zur offenen Vokabularsegmentierung (OVS) verbessert. Dabei ermöglichen VLMs es Benutzern, neue Klassen und Konzepte zu segmentieren, die während des Trainings des Segmentierungsmodells nicht gesehen wurden. Allerdings geht diese Flexibilität mit einem Kompromiss einher: vollständig überwachte Methoden für abgeschlossene Mengen übertreffen OVS-Methoden immer noch bei Basisklassen, also bei Klassen, auf denen sie explizit trainiert wurden. Dies liegt an dem Fehlen pixelgenauer Trainingsmasken für VLMs (die auf Bild-Beschreibungspaaren trainiert werden), sowie am Mangel an domänenbezogenem Wissen wie z.B. autonomer Fahrt. Daher schlagen wir die Aufgabe der offenen Vokabularanpassung an domänenbezogenes Wissen vor, um dieses in VLMs zu integrieren, während deren offenes Vokabular beibehalten wird. Dadurch erreichen wir eine verbesserte Leistung sowohl bei Basisklassen als auch bei neuen Klassen. Bestehende Anpassungsmethoden für VLMs verbessern zwar die Leistung bei Basisanfragen (Trainingsanfragen), aber sie bewahren das offene Set-Vokabular der VLMs bei neuen Anfragen nicht vollständig. Um diesen Nachteil zu beheben, kombinieren wir parameter-effizientes Prompt-Tuning mit einer Triplettenverlust-basierten Trainingsstrategie, die zusätzliche negative Anfragen verwendet. Bemerkenswerterweise ist unser Ansatz die einzige parameter-effiziente Methode, die konsistent die ursprünglichen VLMs bei neuen Klassen übertrifft. Unsere angepassten VLMs können nahtlos in bestehende OVS-Pipelines integriert werden, z.B. indem sie OVSeg um +6,0 % mIoU auf ADE20K für offene Vokabular 2D-Segmentierung und OpenMask3D um +4,1 % AP auf ScanNet++ Büros für offene Vokabular 3D-Instanzsegmentierung ohne weitere Änderungen verbessern. Die Projektseite ist unter https://open-das.github.io/ verfügbar.

OpenDAS: Offen-vokabuläre Domänenanpassung für 2D- und 3D-Segmentation | Neueste Forschungsarbeiten | HyperAI