HyperAIHyperAI
vor 2 Monaten

LanguageBind: Erweiterung der videobasierten Sprachvorbildung auf N-Modalitäten durch sprachbasierte semantische Ausrichtung

Bin Zhu; Bin Lin; Munan Ning; Yang Yan; Jiaxi Cui; HongFa Wang; Yatian Pang; Wenhao Jiang; Junwu Zhang; Zongwei Li; Wancai Zhang; Zhifeng Li; Wei Liu; Li Yuan
LanguageBind: Erweiterung der videobasierten Sprachvorbildung auf N-Modalitäten durch sprachbasierte semantische Ausrichtung
Abstract

Das Video-Sprache (VL) Pretraining hat in mehreren Downstream-Aufgaben erhebliche Verbesserungen erzielt. Allerdings ist der aktuelle VL-Pretraining-Rahmen schwer zu erweitern auf mehrere Modalitäten (N Modalitäten, N>=3) über hinaus, die sich nicht auf Vision und Sprache beschränken. Wir schlagen daher LanguageBind vor, bei dem die Sprachmodalität als Bindemittel zwischen verschiedenen Modalitäten verwendet wird, da sie gut erforscht ist und reiche Semantik enthält. Spezifisch gefriert man den durch VL-Pretraining erworbenen Sprachencoder und trainiert dann Encoder für andere Modalitäten mit kontrastivem Lernen. Als Ergebnis werden alle Modalitäten in einen gemeinsamen Merkmalsraum abgebildet, was eine multimodale semantische Ausrichtung ermöglicht. Während LanguageBind sicherstellt, dass wir VL-Modalitäten auf N-Modalitäten erweitern können, benötigen wir auch ein hochwertiges Datensatz mit ausgerichteten Datendupleten, die sich auf die Sprache konzentrieren. Deshalb schlagen wir VIDAL-10M vor, der Videos, Infrarot-, Tiefen- und Audiodaten sowie deren entsprechende sprachliche Beschreibungen umfasst. In unserem VIDAL-10M stammen alle Videos von Kurzvideo-Plattformen und verfügen über vollständige Semantik anstatt abgeschnittene Segmente aus langen Videos. Alle Videomodalitäten, Tiefendaten, Infrarotdaten und Audiodaten sind ihren textuellen Beschreibungen zugeordnet. LanguageBind hat auf einer Vielzahl von 15 Benchmarks, die Video, Audio, Tiefendaten und Infrarot umfassen, überlegene Leistungen gezeigt. Zudem haben mehrere Experimente Beweise für die Effektivität von LanguageBind bei der Erreichung indirekter Ausrichtung und Komplementarität unter verschiedenen Modalitäten geliefert. Quellcode: https://github.com/PKU-YuanGroup/LanguageBind

LanguageBind: Erweiterung der videobasierten Sprachvorbildung auf N-Modalitäten durch sprachbasierte semantische Ausrichtung | Neueste Forschungsarbeiten | HyperAI