OpenSD: Einheitliche offene-Vokabular-Segmentierung und -Erkennung

Kürzlich wurden mehrere Open-Vocabulary-Methoden vorgestellt, die eine einheitliche Architektur einsetzen, um generische Segmentierung und Detektion zu bewältigen. Dennoch bleibt ihre Leistung hinter task-spezifischen Modellen zurück, da zwischen den unterschiedlichen Aufgaben ein Konflikt besteht, und ihre Fähigkeit zur Open-Vocabulary-Verarbeitung ist aufgrund einer unzureichenden Nutzung von CLIP begrenzt. Um diese Herausforderungen zu bewältigen, präsentieren wir einen universellen, auf Transformer basierenden Rahmen, abgekürzt als OpenSD, der dieselbe Architektur und Netzwerkparameter zur Bearbeitung von Open-Vocabulary-Segmentierungs- und Detektionsaufgaben nutzt. Zunächst führen wir eine decoder-entkoppelte Lernstrategie ein, um den semantischen Konflikt zwischen „Thing“- und „Stuff“-Kategorien zu verringern, sodass jede einzelne Aufgabe innerhalb desselben Rahmens effektiver erlernt werden kann. Zweitens schlagen wir zwei getrennte Klassifikatoren vor, um jeweils den in-Vocabulary- und den out-of-Vocabulary-Bereich zu behandeln, um CLIP effizienter für end-to-end-Segmentierung und Detektion auszunutzen. Der Text-Encoder wird zudem durch entkoppelte Prompt-Lernverfahren weiter trainiert, um regionenbewusst zu werden, sowohl für „Thing“- als auch für „Stuff“-Kategorien, wodurch die Filterung von doppelten und qualitativ schlechten Vorhersagen ermöglicht wird – ein entscheidender Faktor für end-to-end-Segmentierung und Detektion. Umfassende Experimente werden auf mehreren Datensätzen unter verschiedenen Bedingungen durchgeführt. Die Ergebnisse zeigen, dass OpenSD sowohl in geschlossenen als auch in offenen Vokabular-Szenarien state-of-the-art-Methoden für Open-Vocabulary-Segmentierung und Detektion übertrifft. Der Quellcode ist unter https://github.com/strongwolf/OpenSD verfügbar.