vor 2 Monaten

OFA: Vereinigung von Architekturen, Aufgaben und Modalitäten durch ein einfaches Sequenz-zu-Sequenz-Lernframework

Wang, Peng ; Yang, An ; Men, Rui ; Lin, Junyang ; Bai, Shuai ; Li, Zhikang ; Ma, Jianxin ; Zhou, Chang ; Zhou, Jingren ; Yang, Hongxia

Details der Forschungsarbeit anzeigen

OFA: Vereinigung von Architekturen, Aufgaben und Modalitäten durch ein einfaches Sequenz-zu-Sequenz-Lernframework

Abstract

In dieser Arbeit verfolgen wir ein einheitliches Paradigma für multimodales Vortrainieren, um die Gerüste komplexer, aufgaben- und modalitätsspezifischer Anpassungen zu überwinden. Wir schlagen OFA vor, einen aufgabenunabhängigen (Task-Agnostic) und modalitätsunabhängigen (Modality-Agnostic) Rahmen, der die Aufgabenkomplettheit (Task Comprehensiveness) unterstützt. OFA vereint eine Vielzahl von kreuzmodalen und unimodalen Aufgaben, darunter Bildgenerierung, visuelle Verankerung, Bildunterschriftenerstellung, Bildklassifizierung, Sprachmodellierung usw., in einem einfachen sequenzbasierten Lernrahmen. OFA folgt im Vortrainierungs- und Feintrainierungsstadium einem anweisungsbasierten Lernen und erfordert keine zusätzlichen aufgabenspezifischen Schichten für nachgeschaltete Aufgaben. Im Vergleich zu den jüngsten state-of-the-art Vision & Language-Modellen, die sich auf extrem große kreuzmodale Datensätze stützen, wird OFA nur mit 20 Millionen öffentlich zugänglichen Bild-Text-Paaren vortrainiert. Trotz seiner Einfachheit und des vergleichsweise kleinen Trainingsdatums erreicht OFA neue Spitzenleistungen (SOTAs) in einer Reihe von kreuzmodalen Aufgaben und gleichzeitig sehr wettbewerbsfähige Leistungen in unimodalen Aufgaben. Unsere weitere Analyse zeigt, dass OFA auch effektiv auf unbekannte Aufgaben und unbekannte Domänen übertragen werden kann. Unser Code und unsere Modelle sind öffentlich verfügbar unter https://github.com/OFA-Sys/OFA.