vor 7 Tagen

Verallgemeinerte Decodierung für Pixel, Bilder und Sprache

Xueyan Zou, Zi-Yi Dou, Jianwei Yang, Zhe Gan, Linjie Li, Chunyuan Li, Xiyang Dai, Harkirat Behl, Jianfeng Wang, Lu Yuan, Nanyun Peng, Lijuan Wang, Yong Jae Lee, Jianfeng Gao

Details der Forschungsarbeit anzeigen

Verallgemeinerte Decodierung für Pixel, Bilder und Sprache

Abstract

Wir präsentieren X-Decoder, ein verallgemeinertes Decodiermodell, das pixelgenaue Segmentierung und Sprachtokens nahtlos vorhersagen kann. X-Decoder nimmt zwei Arten von Abfragen als Eingabe entgegen: (i) generische, nicht-semantische Abfragen und (ii) semantische Abfragen, die aus Texteingaben abgeleitet werden, um unterschiedliche pixel- und tokenbasierte Ausgaben im selben semantischen Raum zu generieren. Durch diese innovative Architektur ist X-Decoder die erste Arbeit, die einen einheitlichen Ansatz für alle Arten von Bildsegmentierung sowie eine Vielzahl von vision-sprachlichen (VL) Aufgaben bereitstellt. Darüber hinaus ermöglicht unsere Design-Philosophie nahtlose Interaktionen zwischen Aufgaben unterschiedlicher Granularität und bringt wechselseitige Vorteile durch das Lernen eines gemeinsamen, reichen visuell-semantischen Raums auf Pixel-Ebene, ohne dass pseudolabeling erforderlich ist. Nach dem Pretraining auf einer gemischten Menge aus einer begrenzten Menge an Segmentierungsdaten und Millionen von Bild-Text-Paaren zeigt X-Decoder eine starke Übertragbarkeit auf eine breite Palette von nachgeschalteten Aufgaben sowohl im Zero-Shot- als auch im Fine-Tuning-Szenario. Insbesondere erreicht es (1) state-of-the-art-Ergebnisse bei offenen Vokabular-Segmentierung und Referenz-Segmentierung auf acht Datensätzen; (2) bessere oder wettbewerbsfähige Fine-Tuning-Leistungen im Vergleich zu anderen Generalisten- und Spezialisten-Modellen bei Segmentierungs- und VL-Aufgaben; sowie (3) Flexibilität für effizientes Fine-Tuning und die Kombination neuer Aufgaben (z. B. Referenz-Kommentierung und Bildbearbeitung). Der Quellcode, eine Demo, Videos und Visualisierungen sind unter https://x-decoder-vl.github.io verfügbar.