Einheitliche Behandlung von Vision-und-Sprache-Aufgaben durch Textgenerierung

Bekannte Methoden im Bereich der visuell-sprachlichen Lernansätze erfordern typischerweise die spezifische Gestaltung von Architekturen und Zielfunktionen für jede einzelne Aufgabe. Beispielsweise wird für die visuelle Fragebeantwortung ein Multi-Label-Antwort-Klassifikator, für die Verständnis von Referenzausdrücken ein Region-Scorer und für die Bildbeschreibung ein Sprachdecoder benötigt. Um diese Aufwendungen zu verringern, schlagen wir in dieser Arbeit einen einheitlichen Rahmen vor, der verschiedene Aufgaben in einer einzigen Architektur mit derselben Sprachmodellierungszielsetzung erlernt – nämlich der multimodalen bedingten Textgenerierung. In diesem Ansatz lernen unsere Modelle, Textlabels basierend auf visuellen und textuellen Eingaben zu generieren. Auf sieben gängigen Benchmarks im Bereich visuell-sprachlicher Aufgaben, darunter visuelle Fragebeantwortung, Verständnis von Referenzausdrücken und visuelle Alltagslogik, bei denen die Aufgaben bisher überwiegend als diskriminative Aufgaben modelliert wurden, erreicht unsere generative Methode (mit einer einzigen einheitlichen Architektur) eine Leistung, die mit jüngsten, auf spezifische Aufgaben zugeschnittenen State-of-the-Art-Modellen vergleichbar ist. Zudem zeigt unsere generative Herangehensweise eine bessere Generalisierungsfähigkeit bei Fragen mit seltenen Antworten. Außerdem zeigen wir, dass unser Rahmenwerk die mehrfache Aufgabenbearbeitung in einer einzigen Architektur mit einer einzigen Parametermenge ermöglicht und dabei eine Leistung erzielt, die vergleichbar ist mit getrennt optimierten Einzel-Aufgaben-Modellen. Unser Quellcode ist öffentlich verfügbar unter: https://github.com/j-min/VL-T5