FreeSeg: Einheitliche, universelle und offene Vokabular-Bildsegmentierung

Kürzlich ist das offene Vokabularlernen (open-vocabulary learning) aufgetreten, um die Segmentierung für beliebige Kategorien von textbasierten Beschreibungen zu erreichen. Dies hat dazu beigetragen, dass Segmentierungssysteme in weitaus allgemeinere Anwendungsszenarien populär geworden sind. Allerdings widmen sich bisherige Methoden dem Entwurf spezialisierter Architekturen oder Parameter für bestimmte Segmentierungsaufgaben. Diese maßgeschneiderten Designparadigmen führen zu Fragmentierung zwischen verschiedenen Segmentierungsaufgaben und behindern somit die Einheitlichkeit der Segmentierungsmodelle. Daher schlagen wir in diesem Artikel FreeSeg vor, einen generischen Rahmen zur Erreichung einer einheitlichen, universellen und offenen Vokabularbild-Segmentierung (Unified, Universal and Open-Vocabulary Image Segmentation). FreeSeg optimiert ein ganzheitliches Netzwerk durch einstufiges Training (one-shot training) und verwendet dieselbe Architektur und Parameter, um verschiedene Segmentierungsaufgaben nahtlos im Inferenzprozess zu bearbeiten. Zudem fördert adaptives Prompt-Lernen die Fähigkeit des einheitlichen Modells, task-bewusste und kategorie-sensible Konzepte zu erfassen, was die Robustheit des Modells in Multi-Task- und variablen Szenarien verbessert. Ausführliche experimentelle Ergebnisse zeigen, dass FreeSeg neue Standartwerte (state-of-the-art results) in Leistung und Generalisierung bei drei Segmentierungsaufgaben aufstellt: Es übertrifft die besten task-spezifischen Architekturen deutlich um 5,5 % mIoU bei semantischer Segmentierung, 17,6 % mAP bei instanzbasierter Segmentierung und 20,1 % PQ bei panoptischer Segmentierung für unbekannte Klassen im COCO-Datensatz.