HyperAIHyperAI

Command Palette

Search for a command to run...

Übergangsadaptierung vortrainierter Modelle für visuelle Geschichten

Gunhee Kim Jongseok Kim Heeseung Yun Jiwan Chung Youngjae Yu

Zusammenfassung

Bisherige Modelle für Aufgaben der visuellen Spracherzeugung prätrainieren in der Regel einen visuellen Encoder und einen Sprachgenerator jeweils in ihren eigenen Domänen und feinjustieren sie gemeinsam mit der Zielaufgabe. Diese direkte Übertragungsstrategie kann jedoch unter einer Diskrepanz zwischen visueller Spezifität und sprachlicher Flüssigkeit leiden, da die beiden Komponenten oft getrennt aus großen Korpora visueller und textueller Daten trainiert werden, ohne gemeinsames Fundament. In dieser Arbeit argumentieren wir, dass eine transitorische Anpassungsaufgabe zwischen Prätraining und Feinjustierung erforderlich ist, um den visuellen Encoder und das Sprachmodell für anspruchsvolle nachgelagerte Aufgaben wie visuelles Erzählen harmonisch zu integrieren. Wir stellen einen neuen Ansatz namens Transitional Adaptation of Pretrained Model (TAPM) vor, der die multimodalen Module gegenseitig anpasst, wobei lediglich eine vereinfachte Alignierungsaufgabe zwischen visuellen Eingaben durchgeführt wird, ohne dass Textlabels benötigt werden. Durch umfangreiche Experimente zeigen wir, dass dieser Anpassungsschritt die Leistung mehrerer Sprachmodelle erheblich verbessert, insbesondere bei sequenziellen Video- und Bildbeschreibungsaufgaben. Wir erreichen neue SOTA-Ergebnisse sowohl in den Sprachmetriken als auch in der menschlichen Bewertung im mehrsatzbasierten Beschreibungstask des LSMDC 2019 sowie im Bildgeschichten-Erzähltask des VIST. Unsere Experimente deuten darauf hin, dass diese Verbesserung der Beschreibungsgüte unabhängig von der spezifischen Wahl des Sprachmodells ist.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Übergangsadaptierung vortrainierter Modelle für visuelle Geschichten | Paper | HyperAI