HyperAIHyperAI
vor 11 Tagen

Übergangsadaptierung vortrainierter Modelle für visuelle Geschichten

{Gunhee Kim, Jongseok Kim, Heeseung Yun, Jiwan Chung, Youngjae Yu}
Übergangsadaptierung vortrainierter Modelle für visuelle Geschichten
Abstract

Bisherige Modelle für Aufgaben der visuellen Spracherzeugung prätrainieren in der Regel einen visuellen Encoder und einen Sprachgenerator jeweils in ihren eigenen Domänen und feinjustieren sie gemeinsam mit der Zielaufgabe. Diese direkte Übertragungsstrategie kann jedoch unter einer Diskrepanz zwischen visueller Spezifität und sprachlicher Flüssigkeit leiden, da die beiden Komponenten oft getrennt aus großen Korpora visueller und textueller Daten trainiert werden, ohne gemeinsames Fundament. In dieser Arbeit argumentieren wir, dass eine transitorische Anpassungsaufgabe zwischen Prätraining und Feinjustierung erforderlich ist, um den visuellen Encoder und das Sprachmodell für anspruchsvolle nachgelagerte Aufgaben wie visuelles Erzählen harmonisch zu integrieren. Wir stellen einen neuen Ansatz namens Transitional Adaptation of Pretrained Model (TAPM) vor, der die multimodalen Module gegenseitig anpasst, wobei lediglich eine vereinfachte Alignierungsaufgabe zwischen visuellen Eingaben durchgeführt wird, ohne dass Textlabels benötigt werden. Durch umfangreiche Experimente zeigen wir, dass dieser Anpassungsschritt die Leistung mehrerer Sprachmodelle erheblich verbessert, insbesondere bei sequenziellen Video- und Bildbeschreibungsaufgaben. Wir erreichen neue SOTA-Ergebnisse sowohl in den Sprachmetriken als auch in der menschlichen Bewertung im mehrsatzbasierten Beschreibungstask des LSMDC 2019 sowie im Bildgeschichten-Erzähltask des VIST. Unsere Experimente deuten darauf hin, dass diese Verbesserung der Beschreibungsgüte unabhängig von der spezifischen Wahl des Sprachmodells ist.

Übergangsadaptierung vortrainierter Modelle für visuelle Geschichten | Neueste Forschungsarbeiten | HyperAI