HyperAIHyperAI
vor 2 Monaten

Hierarchische Offene-Vokabular-Universelle Bildsegmentierung

Wang, Xudong ; Li, Shufan ; Kallidromitis, Konstantinos ; Kato, Yusuke ; Kozuka, Kazuki ; Darrell, Trevor
Hierarchische Offene-Vokabular-Universelle Bildsegmentierung
Abstract

Die Offen-vokabular-Bildsegmentierung (open-vocabulary image segmentation) strebt danach, ein Bild in semantische Regionen aufzuteilen, die sich anhand beliebiger Textbeschreibungen definieren lassen. Komplexe visuelle Szenen können jedoch natürlicherweise in einfachere Teile zerlegt und auf verschiedenen Granularitätsebenen abstrahiert werden, was zu einer inhärenten Segmentierungsmehrdeutigkeit führt. Im Gegensatz zu bestehenden Methoden, die diese Mehrdeutigkeit in der Regel umgehen und als externen Faktor behandeln, integriert unser Ansatz aktiv eine hierarchische Darstellung, die verschiedene semantische Ebenen umfasst, in den Lernprozess. Wir schlagen einen getrennten Text-Bild-Fusionsmechanismus sowie Lernmodule für "Dinge" (things) und "Materialien" (stuff) vor. Zudem untersuchen wir systematisch die Unterschiede zwischen den textuellen und visuellen Merkmalen dieser Kategorien. Unser daraus resultierendes Modell, das HIPIE genannt wird, löst hierarchische, offen-vokabulare und universelle Segmentierungsaufgaben innerhalb eines einheitlichen Rahmens. An mehr als 40 Datensätzen wie ADE20K, COCO, Pascal-VOC Part, RefCOCO/RefCOCOg, ODinW und SeginW getestet, erreicht HIPIE den aktuellen Stand der Technik bei verschiedenen Ebenen der Bildverarbeitung, einschließlich der semantischen Ebene (z.B. semantische Segmentierung), der Instanz-Ebene (z.B. panoptische/referenzbezogene Segmentierung und Objekterkennung) sowie der Teil-Ebene (z.B. Teil-/Unterteil-Segmentierung). Unser Code ist unter https://github.com/berkeley-hipie/HIPIE veröffentlicht.

Hierarchische Offene-Vokabular-Universelle Bildsegmentierung | Neueste Forschungsarbeiten | HyperAI