HyperAI

Zusammenfassung

Wir stellen ODISE vor: Offen-vokabuläre Diffusionsbasierte Panoramasegmentierung, die prätrainierte Text-Bild-Diffusionsmodelle und diskriminative Modelle vereint, um eine offen-vokabuläre Panoramasegmentierung durchzuführen. Text-zu-Bild-Diffusionsmodelle besitzen die bemerkenswerte Fähigkeit, hochwertige Bilder mit vielfältigen offenen Vokabelbeschreibungen zu generieren. Dies zeigt, dass ihr internes Repräsentationsraum stark mit offenen Konzepten der realen Welt korreliert. Diskriminative Text-Bild-Modelle wie CLIP sind hingegen gut darin, Bilder in offene Vokabelkategorien einzuordnen. Wir nutzen die gefrorenen internen Repräsentationen beider Modelle, um die Panoramasegmentierung beliebiger Kategorien in der freien Natur durchzuführen. Unser Ansatz übertrifft den bisherigen Stand der Technik bei den Aufgaben der offen-vokabulären Panoramasegmentierung und semantischen Segmentierung erheblich. Insbesondere erreicht unsere Methode mit nur COCO-Training 23,4 PQ und 30,0 mIoU auf dem ADE20K-Datensatz, was einer absoluten Steigerung von 8,3 PQ und 7,9 mIoU gegenüber dem bisherigen Stand der Technik entspricht. Wir stellen unseren Quellcode und unsere Modelle unter https://github.com/NVlabs/ODISE öffentlich zur Verfügung.

Zusammenfassung

Jiarui Xu extsuperscript1 hanksJiarui Xu was an intern at NVIDIA during the project. Sifei Liu extsuperscript2 hanksequal contribution. Arash Vahdat extsuperscript2 Wonmin Byeon extsuperscript2 Xiaolong Wang extsuperscript1 Shalini De Mello extsuperscript2

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Jiarui Xu extsuperscript1 hanksJiarui Xu was an intern at NVIDIA during the project. Sifei Liu extsuperscript2 hanksequal contribution. Arash Vahdat extsuperscript2 Wonmin Byeon extsuperscript2 Xiaolong Wang extsuperscript1 Shalini De Mello extsuperscript2

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Jiarui Xu extsuperscript1 hanksJiarui Xu was an intern at NVIDIA during the project. Sifei Liu extsuperscript2 hanksequal contribution. Arash Vahdat extsuperscript2 Wonmin Byeon extsuperscript2 Xiaolong Wang extsuperscript1 Shalini De Mello extsuperscript2

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Offene-Vokabular-Panoramasegmentierung mit Text-zu-Bild-Diffusionsmodellen

Jiarui Xu extsuperscript1 hanksJiarui Xu was an intern at NVIDIA during the project. Sifei Liu extsuperscript2 hanksequal contribution. Arash Vahdat extsuperscript2 Wonmin Byeon extsuperscript2 Xiaolong Wang extsuperscript1 Shalini De Mello extsuperscript2

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Offene-Vokabular-Panoramasegmentierung mit Text-zu-Bild-Diffusionsmodellen

Jiarui Xu extsuperscript1 hanksJiarui Xu was an intern at NVIDIA during the project. Sifei Liu extsuperscript2 hanksequal contribution. Arash Vahdat extsuperscript2 Wonmin Byeon extsuperscript2 Xiaolong Wang extsuperscript1 Shalini De Mello extsuperscript2

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Offene-Vokabular-Panoramasegmentierung mit Text-zu-Bild-Diffusionsmodellen

Jiarui Xu extsuperscript1 hanksJiarui Xu was an intern at NVIDIA during the project. Sifei Liu extsuperscript2 hanksequal contribution. Arash Vahdat extsuperscript2 Wonmin Byeon extsuperscript2 Xiaolong Wang extsuperscript1 Shalini De Mello extsuperscript2

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters