Offene-Vokabular-Panoramasegmentierung mit Text-zu-Bild-Diffusionsmodellen

Wir stellen ODISE vor: Offen-vokabuläre Diffusionsbasierte Panoramasegmentierung, die prätrainierte Text-Bild-Diffusionsmodelle und diskriminative Modelle vereint, um eine offen-vokabuläre Panoramasegmentierung durchzuführen. Text-zu-Bild-Diffusionsmodelle besitzen die bemerkenswerte Fähigkeit, hochwertige Bilder mit vielfältigen offenen Vokabelbeschreibungen zu generieren. Dies zeigt, dass ihr internes Repräsentationsraum stark mit offenen Konzepten der realen Welt korreliert. Diskriminative Text-Bild-Modelle wie CLIP sind hingegen gut darin, Bilder in offene Vokabelkategorien einzuordnen. Wir nutzen die gefrorenen internen Repräsentationen beider Modelle, um die Panoramasegmentierung beliebiger Kategorien in der freien Natur durchzuführen. Unser Ansatz übertrifft den bisherigen Stand der Technik bei den Aufgaben der offen-vokabulären Panoramasegmentierung und semantischen Segmentierung erheblich. Insbesondere erreicht unsere Methode mit nur COCO-Training 23,4 PQ und 30,0 mIoU auf dem ADE20K-Datensatz, was einer absoluten Steigerung von 8,3 PQ und 7,9 mIoU gegenüber dem bisherigen Stand der Technik entspricht. Wir stellen unseren Quellcode und unsere Modelle unter https://github.com/NVlabs/ODISE öffentlich zur Verfügung.