HyperAIHyperAI

Command Palette

Search for a command to run...

Einheitliche Behandlung von Vision-und-Sprache-Aufgaben durch Textgenerierung

Jaemin Cho Jie Lei Hao Tan Mohit Bansal

Zusammenfassung

Bekannte Methoden im Bereich der visuell-sprachlichen Lernansätze erfordern typischerweise die spezifische Gestaltung von Architekturen und Zielfunktionen für jede einzelne Aufgabe. Beispielsweise wird für die visuelle Fragebeantwortung ein Multi-Label-Antwort-Klassifikator, für die Verständnis von Referenzausdrücken ein Region-Scorer und für die Bildbeschreibung ein Sprachdecoder benötigt. Um diese Aufwendungen zu verringern, schlagen wir in dieser Arbeit einen einheitlichen Rahmen vor, der verschiedene Aufgaben in einer einzigen Architektur mit derselben Sprachmodellierungszielsetzung erlernt – nämlich der multimodalen bedingten Textgenerierung. In diesem Ansatz lernen unsere Modelle, Textlabels basierend auf visuellen und textuellen Eingaben zu generieren. Auf sieben gängigen Benchmarks im Bereich visuell-sprachlicher Aufgaben, darunter visuelle Fragebeantwortung, Verständnis von Referenzausdrücken und visuelle Alltagslogik, bei denen die Aufgaben bisher überwiegend als diskriminative Aufgaben modelliert wurden, erreicht unsere generative Methode (mit einer einzigen einheitlichen Architektur) eine Leistung, die mit jüngsten, auf spezifische Aufgaben zugeschnittenen State-of-the-Art-Modellen vergleichbar ist. Zudem zeigt unsere generative Herangehensweise eine bessere Generalisierungsfähigkeit bei Fragen mit seltenen Antworten. Außerdem zeigen wir, dass unser Rahmenwerk die mehrfache Aufgabenbearbeitung in einer einzigen Architektur mit einer einzigen Parametermenge ermöglicht und dabei eine Leistung erzielt, die vergleichbar ist mit getrennt optimierten Einzel-Aufgaben-Modellen. Unser Quellcode ist öffentlich verfügbar unter: https://github.com/j-min/VL-T5


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp