vor 2 Monaten

Gramian Multimodale Repräsentationslernen und -ausrichtung

Giordano Cicchetti; Eleonora Grassucci; Luigi Sigillo; Danilo Comminiello

Abstract

Die menschliche Wahrnehmung integriert mehrere Modalitäten, wie zum Beispiel Sehen, Hören und Sprache, zu einem einheitlichen Verständnis der umgebenden Realität. Obwohl jüngste multimodale Modelle durch kontrastives Lernen bei der Ausrichtung von Modallpaaren erhebliche Fortschritte erzielt haben, sind ihre Lösungen für die Skalierung auf mehrere Modalitäten ungeeignet. Diese Modelle ordnen in der Regel jede Modalität einem bestimmten Anker zu, ohne die gegenseitige Ausrichtung aller Modalitäten sicherzustellen, was zu suboptimaler Leistung bei Aufgaben führt, die eine gemeinsame Verarbeitung mehrerer Modalitäten erfordern. In dieser Arbeit überdenken wir strukturell den üblichen paarweisen Ansatz des multimodalen Lernens und stellen das neuartige Gram'sche Repräsentationsausrichtungsmaß (GRAM) vor, das die genannten Einschränkungen überwindet. GRAM lernt und ordnet $n$ Modalitäten direkt im höherdimensionalen Raum aus, in dem sich die Modalembeddings befinden, indem es das Gram'sche Volumen des $k$-dimensionalen Parallelepipeds minimiert, das von den Modalsvektoren aufgespannt wird. Dies gewährleistet die geometrische Ausrichtung aller Modalitäten gleichzeitig. GRAM kann als Ersatz für die Kosinusähnlichkeit in jeder nachgelagerten Methode verwendet werden und bietet eine bedeutendere Ausrichtung im Vergleich zu früheren Ähnlichkeitsmaßen für 2 bis $n$ Modalitäten. Die neuartige kontrastive Verlustfunktion basierend auf GRAM verbessert die Ausrichtung multimodaler Modelle im höherdimensionalen Embedding-Raum und führt zu neuen StandesderTechnik-Ergebnissen in nachgelagerten Aufgaben wie Video-Audio-Text-Retrieval und Audio-Video-Klassifikation. Die Projektseite, der Code und die vortrainierten Modelle sind unter https://ispamm.github.io/GRAM/ verfügbar.