HyperAIHyperAI

Command Palette

Search for a command to run...

FreeSeg: Einheitliche, universelle und offene Vokabular-Bildsegmentierung

Zusammenfassung

Kürzlich ist das offene Vokabularlernen (open-vocabulary learning) aufgetreten, um die Segmentierung für beliebige Kategorien von textbasierten Beschreibungen zu erreichen. Dies hat dazu beigetragen, dass Segmentierungssysteme in weitaus allgemeinere Anwendungsszenarien populär geworden sind. Allerdings widmen sich bisherige Methoden dem Entwurf spezialisierter Architekturen oder Parameter für bestimmte Segmentierungsaufgaben. Diese maßgeschneiderten Designparadigmen führen zu Fragmentierung zwischen verschiedenen Segmentierungsaufgaben und behindern somit die Einheitlichkeit der Segmentierungsmodelle. Daher schlagen wir in diesem Artikel FreeSeg vor, einen generischen Rahmen zur Erreichung einer einheitlichen, universellen und offenen Vokabularbild-Segmentierung (Unified, Universal and Open-Vocabulary Image Segmentation). FreeSeg optimiert ein ganzheitliches Netzwerk durch einstufiges Training (one-shot training) und verwendet dieselbe Architektur und Parameter, um verschiedene Segmentierungsaufgaben nahtlos im Inferenzprozess zu bearbeiten. Zudem fördert adaptives Prompt-Lernen die Fähigkeit des einheitlichen Modells, task-bewusste und kategorie-sensible Konzepte zu erfassen, was die Robustheit des Modells in Multi-Task- und variablen Szenarien verbessert. Ausführliche experimentelle Ergebnisse zeigen, dass FreeSeg neue Standartwerte (state-of-the-art results) in Leistung und Generalisierung bei drei Segmentierungsaufgaben aufstellt: Es übertrifft die besten task-spezifischen Architekturen deutlich um 5,5 % mIoU bei semantischer Segmentierung, 17,6 % mAP bei instanzbasierter Segmentierung und 20,1 % PQ bei panoptischer Segmentierung für unbekannte Klassen im COCO-Datensatz.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
FreeSeg: Einheitliche, universelle und offene Vokabular-Bildsegmentierung | Paper | HyperAI