HyperAIHyperAI

Command Palette

Search for a command to run...

Unified-IO: Ein vereinheitlichtes Modell für Vision, Sprache und multimodale Aufgaben

Jiasen Lu†* Christopher Clark†* Rowan Zellers†○ Roozbeh Mottaghi†○ Aniruddha Kembhavi†○

Zusammenfassung

Wir schlagen Unified-IO vor, ein Modell, das eine Vielzahl von KI-Aufgaben durchführt, die sich von klassischen Computer Vision-Aufgaben wie Pose-Schätzung, Objekterkennung, Tiefenschätzung und Bildgenerierung über visuelle und sprachliche Aufgaben wie Regionenbeschriftung und referierende Ausdrücke bis hin zu natürlichsprachlichen Verarbeitungsaufgaben wie Fragebeantwortung und Paraphrasierung erstrecken. Die Entwicklung eines einzigen vereinheitlichten Modells für solche vielfältigen Aufgaben stellt aufgrund der heterogenen Eingaben und Ausgaben, die jeder Aufgabe zugeordnet sind – darunter RGB-Bilder, Pixel-konkrete Karten, binäre Masken, Begrenzungsrahmen und Sprache – einzigartige Herausforderungen dar. Diese Vereinheitlichung erreichen wir, indem wir jede unterstützte Eingabe und Ausgabe in eine Sequenz diskreter Wortschatztoken homogenisieren. Diese gemeinsame Darstellung für alle Aufgaben ermöglicht es uns, eine einzelne transformerbasierte Architektur auf über 90 diversen Datensätzen im Bereich Vision und Sprache zu trainieren. Unified-IO ist das erste Modell, das alle 7 Aufgaben des GRIT-Benchmarks durchführen kann und starke Ergebnisse auf 16 verschiedenen Benchmarks wie NYUv2-Tiefe (NYUv2-Depth), ImageNet, VQA2.0, OK-VQA, Swig, VizWizGround (VizWizGround), BoolQ und SciTail erzielt, ohne spezifisches Feinjustierungen für einzelne Aufgaben durchzuführen. Der Quellcode und Demos für Unified-IO sind unter folgender URL verfügbar: https://unified-io.allenai.org.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp