HyperAIHyperAI
vor 2 Monaten

Offene-Vokabular-Panoramasegmentierung mit Text-zu-Bild-Diffusionsmodellen

Jiarui Xu; Sifei Liu; Arash Vahdat; Wonmin Byeon; Xiaolong Wang; Shalini De Mello
Offene-Vokabular-Panoramasegmentierung mit Text-zu-Bild-Diffusionsmodellen
Abstract

Wir stellen ODISE vor: Offen-vokabuläre Diffusionsbasierte Panoramasegmentierung, die prätrainierte Text-Bild-Diffusionsmodelle und diskriminative Modelle vereint, um eine offen-vokabuläre Panoramasegmentierung durchzuführen. Text-zu-Bild-Diffusionsmodelle besitzen die bemerkenswerte Fähigkeit, hochwertige Bilder mit vielfältigen offenen Vokabelbeschreibungen zu generieren. Dies zeigt, dass ihr internes Repräsentationsraum stark mit offenen Konzepten der realen Welt korreliert. Diskriminative Text-Bild-Modelle wie CLIP sind hingegen gut darin, Bilder in offene Vokabelkategorien einzuordnen. Wir nutzen die gefrorenen internen Repräsentationen beider Modelle, um die Panoramasegmentierung beliebiger Kategorien in der freien Natur durchzuführen. Unser Ansatz übertrifft den bisherigen Stand der Technik bei den Aufgaben der offen-vokabulären Panoramasegmentierung und semantischen Segmentierung erheblich. Insbesondere erreicht unsere Methode mit nur COCO-Training 23,4 PQ und 30,0 mIoU auf dem ADE20K-Datensatz, was einer absoluten Steigerung von 8,3 PQ und 7,9 mIoU gegenüber dem bisherigen Stand der Technik entspricht. Wir stellen unseren Quellcode und unsere Modelle unter https://github.com/NVlabs/ODISE öffentlich zur Verfügung.

Offene-Vokabular-Panoramasegmentierung mit Text-zu-Bild-Diffusionsmodellen | Neueste Forschungsarbeiten | HyperAI