HyperAIHyperAI

Command Palette

Search for a command to run...

MMRL: Multi-Modal Representation Learning für Vision-Language-Modelle

Yuncheng Guo Xiaodong Gu

Zusammenfassung

Großskalige vortrainierte Vision-Sprache-Modelle (VLMs) sind für das Transferlernen über vielfältige Aufgaben essentiell geworden. Die Anpassung dieser Modelle an begrenzte Few-Shot-Daten führt jedoch häufig zu Überanpassung und verschlechtert die Leistung auf neuen Aufgaben. Um dieses Problem anzugehen, schlagen wir einen neuartigen Rahmen für multimodale Darstellungslernung (Multi-Modal Representation Learning, MMRL) vor, der einen gemeinsamen, lernbaren und modality-agnostischen Darstellungsraum einführt. MMRL projiziert Raum-Token auf Text- und Bild-Darstellungstoken, wodurch effektivere multimodale Interaktionen ermöglicht werden. Im Gegensatz zu früheren Ansätzen, die lediglich die Klassen-Token-Features optimieren, integriert MMRL Darstellungstoken in höheren Schichten der Encoder – wo datenspezifische Merkmale ausgeprägter sind –, während die allgemeinen Kenntnisse in den tieferen Schichten erhalten bleiben. Während des Trainings werden sowohl Darstellungs- als auch Klassen-Features optimiert, wobei eine trainierbare Projektionschicht auf die Darstellungstoken angewendet wird, während die Projektionschicht für die Klassentoken fixiert bleibt, um die vortrainierten Kenntnisse zu bewahren. Zudem wird ein Regularisierungsterm eingeführt, um die Klassen-Features und Text-Features mit den Zero-Shot-Features des fixierten VLM auszurichten, wodurch die Generalisierungsfähigkeit des Modells geschützt wird. Bei der Inferenz wird eine Entkopplungsstrategie angewendet: Für Basis-Klassen werden sowohl Darstellungs- als auch Klassen-Features genutzt, während für neue Aufgaben ausschließlich die Klassen-Features verwendet werden, die mehr allgemeine Kenntnisse bewahren. Umfassende Experimente an 15 Datensätzen zeigen, dass MMRL state-of-the-art-Methoden übertrifft und ein ausgewogenes Verhältnis zwischen aufgabenbezogener Anpassung und Generalisierung erreicht. Der Quellcode ist unter https://github.com/yunncheng/MMRL verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
MMRL: Multi-Modal Representation Learning für Vision-Language-Modelle | Paper | HyperAI