HyperAIHyperAI
vor 11 Tagen

SimpleClick: Interaktive Bildsegmentierung mit einfachen Vision Transformers

Qin Liu, Zhenlin Xu, Gedas Bertasius, Marc Niethammer
SimpleClick: Interaktive Bildsegmentierung mit einfachen Vision Transformers
Abstract

Klickbasierte interaktive Bildsegmentierung zielt darauf ab, Objekte mit einer begrenzten Anzahl an Benutzerklicks zu extrahieren. Ein hierarchischer Backbone stellt derzeit die Standardarchitektur für derartige Methoden dar. Kürzlich ist der einfache, nicht-hierarchische Vision Transformer (ViT) als konkurrenzfähiger Backbone für Aufgaben der dichten Vorhersage aufgetreten. Dieses Design ermöglicht es, den ursprünglichen ViT als Grundmodell zu nutzen, das für nachgeschaltete Aufgaben ohne Neukonzipierung eines hierarchischen Backbones während des Vortrainings fine-tuned werden kann. Obwohl dieses Vorgehen einfach ist und sich als wirksam erwiesen hat, wurde es bisher noch nicht für die interaktive Bildsegmentierung erforscht. Um diese Lücke zu schließen, stellen wir SimpleClick vor – die erste interaktive Segmentierungsmethode, die einen einfachen Backbone nutzt. Auf Basis dieses einfachen Backbones führen wir eine symmetrische Patch-Einbettungsschicht ein, die Klicks mit geringfügigen Modifikationen am Backbone selbst in das Modell integriert. Unter Verwendung eines im Vorhinein als maskierter Autoencoder (MAE) vortrainierten einfachen Backbones erreicht SimpleClick eine state-of-the-art Leistung. Bemerkenswert ist, dass unsere Methode auf dem SBD-Datensatz eine Leistung von 4,15 NoC@90 erzielt, was einer Verbesserung um 21,8 % gegenüber dem vorherigen Bestwert entspricht. Umfassende Evaluierungen an medizinischen Bildern belegen die Allgemeingültigkeit unseres Ansatzes. Zudem entwickeln wir einen extrem kleinen ViT-Backbone für SimpleClick und führen eine detaillierte Berechnungsanalyse durch, die dessen Eignung als praktisches Annotationstool unterstreicht.

SimpleClick: Interaktive Bildsegmentierung mit einfachen Vision Transformers | Neueste Forschungsarbeiten | HyperAI