HyperAIHyperAI

Command Palette

Search for a command to run...

Gramian Multimodale Repräsentationslernen und -ausrichtung

Giordano Cicchetti; Eleonora Grassucci; Luigi Sigillo; Danilo Comminiello

Zusammenfassung

Die menschliche Wahrnehmung integriert mehrere Modalitäten, wie zum Beispiel Sehen, Hören und Sprache, zu einem einheitlichen Verständnis der umgebenden Realität. Obwohl jüngste multimodale Modelle durch kontrastives Lernen bei der Ausrichtung von Modallpaaren erhebliche Fortschritte erzielt haben, sind ihre Lösungen für die Skalierung auf mehrere Modalitäten ungeeignet. Diese Modelle ordnen in der Regel jede Modalität einem bestimmten Anker zu, ohne die gegenseitige Ausrichtung aller Modalitäten sicherzustellen, was zu suboptimaler Leistung bei Aufgaben führt, die eine gemeinsame Verarbeitung mehrerer Modalitäten erfordern. In dieser Arbeit überdenken wir strukturell den üblichen paarweisen Ansatz des multimodalen Lernens und stellen das neuartige Gram'sche Repräsentationsausrichtungsmaß (GRAM) vor, das die genannten Einschränkungen überwindet. GRAM lernt und ordnet nnn Modalitäten direkt im höherdimensionalen Raum aus, in dem sich die Modalembeddings befinden, indem es das Gram'sche Volumen des kkk-dimensionalen Parallelepipeds minimiert, das von den Modalsvektoren aufgespannt wird. Dies gewährleistet die geometrische Ausrichtung aller Modalitäten gleichzeitig. GRAM kann als Ersatz für die Kosinusähnlichkeit in jeder nachgelagerten Methode verwendet werden und bietet eine bedeutendere Ausrichtung im Vergleich zu früheren Ähnlichkeitsmaßen für 2 bis nnn Modalitäten. Die neuartige kontrastive Verlustfunktion basierend auf GRAM verbessert die Ausrichtung multimodaler Modelle im höherdimensionalen Embedding-Raum und führt zu neuen StandesderTechnik-Ergebnissen in nachgelagerten Aufgaben wie Video-Audio-Text-Retrieval und Audio-Video-Klassifikation. Die Projektseite, der Code und die vortrainierten Modelle sind unter https://ispamm.github.io/GRAM/ verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Gramian Multimodale Repräsentationslernen und -ausrichtung | Paper | HyperAI