Unified-IO: Ein vereinheitlichtes Modell für Vision, Sprache und multimodale Aufgaben

Wir schlagen Unified-IO vor, ein Modell, das eine Vielzahl von KI-Aufgaben durchführt, die sich von klassischen Computer Vision-Aufgaben wie Pose-Schätzung, Objekterkennung, Tiefenschätzung und Bildgenerierung über visuelle und sprachliche Aufgaben wie Regionenbeschriftung und referierende Ausdrücke bis hin zu natürlichsprachlichen Verarbeitungsaufgaben wie Fragebeantwortung und Paraphrasierung erstrecken. Die Entwicklung eines einzigen vereinheitlichten Modells für solche vielfältigen Aufgaben stellt aufgrund der heterogenen Eingaben und Ausgaben, die jeder Aufgabe zugeordnet sind – darunter RGB-Bilder, Pixel-konkrete Karten, binäre Masken, Begrenzungsrahmen und Sprache – einzigartige Herausforderungen dar. Diese Vereinheitlichung erreichen wir, indem wir jede unterstützte Eingabe und Ausgabe in eine Sequenz diskreter Wortschatztoken homogenisieren. Diese gemeinsame Darstellung für alle Aufgaben ermöglicht es uns, eine einzelne transformerbasierte Architektur auf über 90 diversen Datensätzen im Bereich Vision und Sprache zu trainieren. Unified-IO ist das erste Modell, das alle 7 Aufgaben des GRIT-Benchmarks durchführen kann und starke Ergebnisse auf 16 verschiedenen Benchmarks wie NYUv2-Tiefe (NYUv2-Depth), ImageNet, VQA2.0, OK-VQA, Swig, VizWizGround (VizWizGround), BoolQ und SciTail erzielt, ohne spezifisches Feinjustierungen für einzelne Aufgaben durchzuführen. Der Quellcode und Demos für Unified-IO sind unter folgender URL verfügbar: https://unified-io.allenai.org.