vor 8 Tagen

VALOR: Vision-Audio-Sprache-Allwahrnehmungs-Vortrainierungsmodell und Datensatz

Jing Liu, Sihan Chen, Xingjian He, Longteng Guo, Xinxin Zhu, Weining Wang, Jinhui Tang

Abstract

In diesem Artikel stellen wir einen Vision-Audio-Sprache-Allwahrnehmungs-Vortrainingsmodell (VALOR) für die multimodale Verständnis- und Generierungsaufgabe vor. Im Gegensatz zu weit verbreiteten Vision-Sprache-Vortrainingsmodellen modelliert VALOR die Beziehungen zwischen Vision, Audio und Sprache in einer end-to-end-Weise gemeinsam. Das Modell verfügt über drei getrennte Encoder zur Darstellung einzelner Modalitäten sowie einen Decoder zur multimodalen bedingten Textgenerierung. Wir entwickeln zwei Vortrainingsaufgaben für VALOR, nämlich Multimodale Gruppierungsausrichtung (MGA) und Multimodale Gruppierungskommentierung (MGC). MGA projiziert Vision, Sprache und Audio in einen gemeinsamen Raum, wodurch gleichzeitig die Ausrichtung zwischen Vision-Sprache, Audio-Sprache und Audio-Vision-Sprache hergestellt wird. MGC lernt, wie Text-Token unter Bedingung von Vision, Audio oder beidem generiert werden können. Um die Forschung im Bereich der Vision-Audio-Sprache-Vortraining zu fördern, erstellen wir eine große, hochwertige dreimodale Datensammlung namens VALOR-1M, die 1 Mio. audiovisuelle Videos mit menschlich annotierten audiovisuellen Kommentaren enthält. Umfangreiche Experimente zeigen, dass VALOR starke multimodale Korrelationen lernen kann und sich auf verschiedene nachgeschaltete Aufgaben (z. B. Retrieval, Kommentierung und Fragebeantwortung) generalisieren lässt, unabhängig von den Eingabemodalitäten (z. B. Vision-Sprache, Audio-Sprache und Audio-Vision-Sprache). VALOR erreicht neue SOTA-Leistungen (state-of-the-art) auf einer Reihe öffentlicher, multimodaler Benchmark-Aufgaben. Der Quellcode und die Daten sind auf der Projektseite verfügbar: https://casia-iva-group.github.io/projects/VALOR.