HyperAIHyperAI

Command Palette

Search for a command to run...

Offene-Vokabular-Panoramasegmentierung mit Text-zu-Bild-Diffusionsmodellen

Jiarui Xu extsuperscript1 hanksJiarui Xu was an intern at NVIDIA during the project. Sifei Liu extsuperscript2 hanksequal contribution. Arash Vahdat extsuperscript2 Wonmin Byeon extsuperscript2 Xiaolong Wang extsuperscript1 Shalini De Mello extsuperscript2

Zusammenfassung

Wir stellen ODISE vor: Offen-vokabuläre Diffusionsbasierte Panoramasegmentierung, die prätrainierte Text-Bild-Diffusionsmodelle und diskriminative Modelle vereint, um eine offen-vokabuläre Panoramasegmentierung durchzuführen. Text-zu-Bild-Diffusionsmodelle besitzen die bemerkenswerte Fähigkeit, hochwertige Bilder mit vielfältigen offenen Vokabelbeschreibungen zu generieren. Dies zeigt, dass ihr internes Repräsentationsraum stark mit offenen Konzepten der realen Welt korreliert. Diskriminative Text-Bild-Modelle wie CLIP sind hingegen gut darin, Bilder in offene Vokabelkategorien einzuordnen. Wir nutzen die gefrorenen internen Repräsentationen beider Modelle, um die Panoramasegmentierung beliebiger Kategorien in der freien Natur durchzuführen. Unser Ansatz übertrifft den bisherigen Stand der Technik bei den Aufgaben der offen-vokabulären Panoramasegmentierung und semantischen Segmentierung erheblich. Insbesondere erreicht unsere Methode mit nur COCO-Training 23,4 PQ und 30,0 mIoU auf dem ADE20K-Datensatz, was einer absoluten Steigerung von 8,3 PQ und 7,9 mIoU gegenüber dem bisherigen Stand der Technik entspricht. Wir stellen unseren Quellcode und unsere Modelle unter https://github.com/NVlabs/ODISE öffentlich zur Verfügung.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Offene-Vokabular-Panoramasegmentierung mit Text-zu-Bild-Diffusionsmodellen | Paper | HyperAI