HyperAIHyperAI

Command Palette

Search for a command to run...

vor 20 Tagen

Skalierung der sprachzentrierten omnimodalen Repräsentationslernen

Chenghao Xiao Hou Pong Chan Hao Zhang Weiwen Xu Mahani Aljunied Yu Rong

Skalierung der sprachzentrierten omnimodalen Repräsentationslernen

Abstract

Kürzlich entwickelte multimodale Embedding-Ansätze, die multimodale große Sprachmodelle (MLLMs) nutzen, die mittels kontrastiver Lernverfahren (CL) feinabgestimmt wurden, haben vielversprechende Ergebnisse erzielt. Die zugrundeliegenden Gründe für ihre Überlegenheit sind jedoch bisher wenig erforscht. In dieser Arbeit wird argumentiert, dass ein entscheidender Vorteil von MLLM-basierten Ansätzen auf einer impliziten, während der generativen Vortrainingsphase erlangten Kreuzmodalen Ausrichtung beruht, bei der der Sprachdecoder lernt, multimodale Signale innerhalb eines gemeinsamen Repräsentationsraums zu nutzen, um unimodale Ausgaben zu generieren. Durch eine Analyse der Anisotropie und der Struktur der Kernel-Ähnlichkeit bestätigen wir empirisch, dass sich latente Ausrichtung innerhalb der MLLM-Repräsentationen einstellt, wodurch CL als leichtgewichtiges Nachverfeinerungsstadium dienen kann. Ausgehend von diesem Erkenntnis schlagen wir einen sprachzentrierten Omnimodal-Embedding-Ansatz vor, der als LCO-Emb bezeichnet wird. Umfassende Experimente an verschiedenen Architekturen und Benchmarks belegen die Wirksamkeit des Ansatzes und ermöglichen eine state-of-the-art-Leistung über alle Modalitäten hinweg. Darüber hinaus identifizieren wir eine Generation-Representation-Scaling-Gesetz (GRSL), das zeigt, dass die durch kontrastive Verfeinerung erlangten repräsentativen Fähigkeiten positiv mit den generativen Fähigkeiten des MLLM skaliert. Dies legt nahe, dass die Verbesserung der generativen Fähigkeiten eine effektive Strategie zur Steigerung der Repräsentationsqualität darstellt. Wir geben eine theoretische Erklärung für die GRSL an, die formell die generative Qualität des MLLM mit der oberen Schranke seiner Repräsentationsleistung verknüpft, und validieren diese auf einer anspruchsvollen, ressourcenarmen Aufgabe zur visuellen Dokumentensuche. Dabei zeigt sich, dass eine kontinuierliche generative Vortrainingsphase vor CL das Embedding-Potenzial eines Modells weiter steigern kann. Die Quellcodes, Modelle und weiteren Ressourcen sind unter https://github.com/LCO-Embedding/LCO-Embedding verfügbar.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Skalierung der sprachzentrierten omnimodalen Repräsentationslernen | Forschungsarbeiten | HyperAI