HyperAIHyperAI
vor 11 Tagen

MMRL: Multi-Modal Representation Learning für Vision-Language-Modelle

Yuncheng Guo, Xiaodong Gu
MMRL: Multi-Modal Representation Learning für Vision-Language-Modelle
Abstract

Großskalige vortrainierte Vision-Sprache-Modelle (VLMs) sind für das Transferlernen über vielfältige Aufgaben essentiell geworden. Die Anpassung dieser Modelle an begrenzte Few-Shot-Daten führt jedoch häufig zu Überanpassung und verschlechtert die Leistung auf neuen Aufgaben. Um dieses Problem anzugehen, schlagen wir einen neuartigen Rahmen für multimodale Darstellungslernung (Multi-Modal Representation Learning, MMRL) vor, der einen gemeinsamen, lernbaren und modality-agnostischen Darstellungsraum einführt. MMRL projiziert Raum-Token auf Text- und Bild-Darstellungstoken, wodurch effektivere multimodale Interaktionen ermöglicht werden. Im Gegensatz zu früheren Ansätzen, die lediglich die Klassen-Token-Features optimieren, integriert MMRL Darstellungstoken in höheren Schichten der Encoder – wo datenspezifische Merkmale ausgeprägter sind –, während die allgemeinen Kenntnisse in den tieferen Schichten erhalten bleiben. Während des Trainings werden sowohl Darstellungs- als auch Klassen-Features optimiert, wobei eine trainierbare Projektionschicht auf die Darstellungstoken angewendet wird, während die Projektionschicht für die Klassentoken fixiert bleibt, um die vortrainierten Kenntnisse zu bewahren. Zudem wird ein Regularisierungsterm eingeführt, um die Klassen-Features und Text-Features mit den Zero-Shot-Features des fixierten VLM auszurichten, wodurch die Generalisierungsfähigkeit des Modells geschützt wird. Bei der Inferenz wird eine Entkopplungsstrategie angewendet: Für Basis-Klassen werden sowohl Darstellungs- als auch Klassen-Features genutzt, während für neue Aufgaben ausschließlich die Klassen-Features verwendet werden, die mehr allgemeine Kenntnisse bewahren. Umfassende Experimente an 15 Datensätzen zeigen, dass MMRL state-of-the-art-Methoden übertrifft und ein ausgewogenes Verhältnis zwischen aufgabenbezogener Anpassung und Generalisierung erreicht. Der Quellcode ist unter https://github.com/yunncheng/MMRL verfügbar.

MMRL: Multi-Modal Representation Learning für Vision-Language-Modelle | Neueste Forschungsarbeiten | HyperAI