HyperAIHyperAI

Command Palette

Search for a command to run...

LanguageBind: Erweiterung der videobasierten Sprachvorbildung auf N-Modalitäten durch sprachbasierte semantische Ausrichtung

Bin Zhu; Bin Lin; Munan Ning; Yang Yan; Jiaxi Cui; HongFa Wang; Yatian Pang; Wenhao Jiang; Junwu Zhang; Zongwei Li; Wancai Zhang; Zhifeng Li; Wei Liu; Li Yuan

Zusammenfassung

Das Video-Sprache (VL) Pretraining hat in mehreren Downstream-Aufgaben erhebliche Verbesserungen erzielt. Allerdings ist der aktuelle VL-Pretraining-Rahmen schwer zu erweitern auf mehrere Modalitäten (N Modalitäten, N>=3) über hinaus, die sich nicht auf Vision und Sprache beschränken. Wir schlagen daher LanguageBind vor, bei dem die Sprachmodalität als Bindemittel zwischen verschiedenen Modalitäten verwendet wird, da sie gut erforscht ist und reiche Semantik enthält. Spezifisch gefriert man den durch VL-Pretraining erworbenen Sprachencoder und trainiert dann Encoder für andere Modalitäten mit kontrastivem Lernen. Als Ergebnis werden alle Modalitäten in einen gemeinsamen Merkmalsraum abgebildet, was eine multimodale semantische Ausrichtung ermöglicht. Während LanguageBind sicherstellt, dass wir VL-Modalitäten auf N-Modalitäten erweitern können, benötigen wir auch ein hochwertiges Datensatz mit ausgerichteten Datendupleten, die sich auf die Sprache konzentrieren. Deshalb schlagen wir VIDAL-10M vor, der Videos, Infrarot-, Tiefen- und Audiodaten sowie deren entsprechende sprachliche Beschreibungen umfasst. In unserem VIDAL-10M stammen alle Videos von Kurzvideo-Plattformen und verfügen über vollständige Semantik anstatt abgeschnittene Segmente aus langen Videos. Alle Videomodalitäten, Tiefendaten, Infrarotdaten und Audiodaten sind ihren textuellen Beschreibungen zugeordnet. LanguageBind hat auf einer Vielzahl von 15 Benchmarks, die Video, Audio, Tiefendaten und Infrarot umfassen, überlegene Leistungen gezeigt. Zudem haben mehrere Experimente Beweise für die Effektivität von LanguageBind bei der Erreichung indirekter Ausrichtung und Komplementarität unter verschiedenen Modalitäten geliefert. Quellcode: https://github.com/PKU-YuanGroup/LanguageBind


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp