HyperAIHyperAI

Command Palette

Search for a command to run...

VALOR: Vision-Audio-Sprache-Allwahrnehmungs-Vortrainierungsmodell und Datensatz

Jing Liu Sihan Chen Xingjian He Longteng Guo Xinxin Zhu Weining Wang Jinhui Tang

Zusammenfassung

In diesem Artikel stellen wir einen Vision-Audio-Sprache-Allwahrnehmungs-Vortrainingsmodell (VALOR) für die multimodale Verständnis- und Generierungsaufgabe vor. Im Gegensatz zu weit verbreiteten Vision-Sprache-Vortrainingsmodellen modelliert VALOR die Beziehungen zwischen Vision, Audio und Sprache in einer end-to-end-Weise gemeinsam. Das Modell verfügt über drei getrennte Encoder zur Darstellung einzelner Modalitäten sowie einen Decoder zur multimodalen bedingten Textgenerierung. Wir entwickeln zwei Vortrainingsaufgaben für VALOR, nämlich Multimodale Gruppierungsausrichtung (MGA) und Multimodale Gruppierungskommentierung (MGC). MGA projiziert Vision, Sprache und Audio in einen gemeinsamen Raum, wodurch gleichzeitig die Ausrichtung zwischen Vision-Sprache, Audio-Sprache und Audio-Vision-Sprache hergestellt wird. MGC lernt, wie Text-Token unter Bedingung von Vision, Audio oder beidem generiert werden können. Um die Forschung im Bereich der Vision-Audio-Sprache-Vortraining zu fördern, erstellen wir eine große, hochwertige dreimodale Datensammlung namens VALOR-1M, die 1 Mio. audiovisuelle Videos mit menschlich annotierten audiovisuellen Kommentaren enthält. Umfangreiche Experimente zeigen, dass VALOR starke multimodale Korrelationen lernen kann und sich auf verschiedene nachgeschaltete Aufgaben (z. B. Retrieval, Kommentierung und Fragebeantwortung) generalisieren lässt, unabhängig von den Eingabemodalitäten (z. B. Vision-Sprache, Audio-Sprache und Audio-Vision-Sprache). VALOR erreicht neue SOTA-Leistungen (state-of-the-art) auf einer Reihe öffentlicher, multimodaler Benchmark-Aufgaben. Der Quellcode und die Daten sind auf der Projektseite verfügbar: https://casia-iva-group.github.io/projects/VALOR.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp