Verallgemeinerte Decodierung für Pixel, Bilder und Sprache

Wir präsentieren X-Decoder, ein verallgemeinertes Decodiermodell, das pixelgenaue Segmentierung und Sprachtokens nahtlos vorhersagen kann. X-Decoder nimmt zwei Arten von Abfragen als Eingabe entgegen: (i) generische, nicht-semantische Abfragen und (ii) semantische Abfragen, die aus Texteingaben abgeleitet werden, um unterschiedliche pixel- und tokenbasierte Ausgaben im selben semantischen Raum zu generieren. Durch diese innovative Architektur ist X-Decoder die erste Arbeit, die einen einheitlichen Ansatz für alle Arten von Bildsegmentierung sowie eine Vielzahl von vision-sprachlichen (VL) Aufgaben bereitstellt. Darüber hinaus ermöglicht unsere Design-Philosophie nahtlose Interaktionen zwischen Aufgaben unterschiedlicher Granularität und bringt wechselseitige Vorteile durch das Lernen eines gemeinsamen, reichen visuell-semantischen Raums auf Pixel-Ebene, ohne dass pseudolabeling erforderlich ist. Nach dem Pretraining auf einer gemischten Menge aus einer begrenzten Menge an Segmentierungsdaten und Millionen von Bild-Text-Paaren zeigt X-Decoder eine starke Übertragbarkeit auf eine breite Palette von nachgeschalteten Aufgaben sowohl im Zero-Shot- als auch im Fine-Tuning-Szenario. Insbesondere erreicht es (1) state-of-the-art-Ergebnisse bei offenen Vokabular-Segmentierung und Referenz-Segmentierung auf acht Datensätzen; (2) bessere oder wettbewerbsfähige Fine-Tuning-Leistungen im Vergleich zu anderen Generalisten- und Spezialisten-Modellen bei Segmentierungs- und VL-Aufgaben; sowie (3) Flexibilität für effizientes Fine-Tuning und die Kombination neuer Aufgaben (z. B. Referenz-Kommentierung und Bildbearbeitung). Der Quellcode, eine Demo, Videos und Visualisierungen sind unter https://x-decoder-vl.github.io verfügbar.