HyperAIHyperAI

Command Palette

Search for a command to run...

OpenSD: Einheitliche offene-Vokabular-Segmentierung und -Erkennung

Shuai Li Minghan Li Pengfei Wang Lei Zhang

Zusammenfassung

Kürzlich wurden mehrere Open-Vocabulary-Methoden vorgestellt, die eine einheitliche Architektur einsetzen, um generische Segmentierung und Detektion zu bewältigen. Dennoch bleibt ihre Leistung hinter task-spezifischen Modellen zurück, da zwischen den unterschiedlichen Aufgaben ein Konflikt besteht, und ihre Fähigkeit zur Open-Vocabulary-Verarbeitung ist aufgrund einer unzureichenden Nutzung von CLIP begrenzt. Um diese Herausforderungen zu bewältigen, präsentieren wir einen universellen, auf Transformer basierenden Rahmen, abgekürzt als OpenSD, der dieselbe Architektur und Netzwerkparameter zur Bearbeitung von Open-Vocabulary-Segmentierungs- und Detektionsaufgaben nutzt. Zunächst führen wir eine decoder-entkoppelte Lernstrategie ein, um den semantischen Konflikt zwischen „Thing“- und „Stuff“-Kategorien zu verringern, sodass jede einzelne Aufgabe innerhalb desselben Rahmens effektiver erlernt werden kann. Zweitens schlagen wir zwei getrennte Klassifikatoren vor, um jeweils den in-Vocabulary- und den out-of-Vocabulary-Bereich zu behandeln, um CLIP effizienter für end-to-end-Segmentierung und Detektion auszunutzen. Der Text-Encoder wird zudem durch entkoppelte Prompt-Lernverfahren weiter trainiert, um regionenbewusst zu werden, sowohl für „Thing“- als auch für „Stuff“-Kategorien, wodurch die Filterung von doppelten und qualitativ schlechten Vorhersagen ermöglicht wird – ein entscheidender Faktor für end-to-end-Segmentierung und Detektion. Umfassende Experimente werden auf mehreren Datensätzen unter verschiedenen Bedingungen durchgeführt. Die Ergebnisse zeigen, dass OpenSD sowohl in geschlossenen als auch in offenen Vokabular-Szenarien state-of-the-art-Methoden für Open-Vocabulary-Segmentierung und Detektion übertrifft. Der Quellcode ist unter https://github.com/strongwolf/OpenSD verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
OpenSD: Einheitliche offene-Vokabular-Segmentierung und -Erkennung | Paper | HyperAI