HyperAIHyperAI
vor 2 Monaten

Bildsegmentierung unter Verwendung von Text- und Bildanweisungen

Lüddecke, Timo ; Ecker, Alexander S.
Bildsegmentierung unter Verwendung von Text- und Bildanweisungen
Abstract

Die Bildsegmentierung wird in der Regel durch das Training eines Modells für eine feste Menge von Objektklassen angegangen. Die spätere Einbeziehung zusätzlicher Klassen oder komplexerer Abfragen ist kostspielig, da es ein erneutes Training des Modells auf einem Datensatz erfordert, der diese Ausdrücke umfasst. Hier schlagen wir ein System vor, das bei Testzeit Segmentierungen basierend auf beliebigen Anweisungen generieren kann. Eine Anweisung kann entweder Text oder ein Bild sein. Dieser Ansatz ermöglicht es uns, ein vereinheitlichtes Modell (einmalig trainiert) für drei gängige Segmentierungsaufgaben zu erstellen, die jeweils eigene Herausforderungen mit sich bringen: Segmentierung durch referenzielle Ausdrücke, Zero-Shot-Segmentierung und One-Shot-Segmentierung. Wir bauen auf dem CLIP-Modell als Grundlage auf und ergänzen es um einen transformer-basierten Decoder, der dichte Vorhersagen ermöglicht. Nach dem Training auf einer erweiterten Version des PhraseCut-Datensatzes generiert unser System eine binäre Segmentierungskarte für ein Bild basierend auf einer freien Textanweisung oder einem zusätzlichen Bild, das die Abfrage darstellt. Wir analysieren verschiedene Varianten der bildbasierten Anweisungen im Detail. Diese neuartige hybride Eingabe ermöglicht nicht nur eine dynamische Anpassung an die oben genannten drei Segmentierungsaufgaben, sondern auch an jede binäre Segmentierungsaufgabe, bei der eine Text- oder Bildabfrage formuliert werden kann. Schließlich stellen wir fest, dass unser System sich gut an verallgemeinerte Abfragen anpasst, die Affordances oder Eigenschaften betreffen. Der Quellcode ist unter https://eckerlab.org/code/clipseg verfügbar.

Bildsegmentierung unter Verwendung von Text- und Bildanweisungen | Neueste Forschungsarbeiten | HyperAI