HyperAIHyperAI

Command Palette

Search for a command to run...

Alternierender Gradientenabstieg und Expertenmischung für integrierte multimodale Wahrnehmung

Hassan Akbari* Dan Kondratyuk* Yin Cui Rachel Hornung Huisheng Wang Hartwig Adam

Zusammenfassung

Wir stellen Integrated Multimodal Perception (IMP) vor, einen einfachen und skalierbaren Ansatz für multimodales Mehrfachaufgaben-Training und -Modellierung. IMP integriert multimodale Eingaben, einschließlich Bildern, Videos, Texten und Audiosignalen, in einen einzelnen Transformer-Encoder mit minimalen modalspezifischen Komponenten. IMP nutzt ein neuartiges Design, das Alternating Gradient Descent (AGD) und Mixture-of-Experts (MoE) kombiniert, um die Modell- und Aufgaben-Skalierung effizient zu gestalten. Wir führen umfangreiche empirische Studien durch und legen folgende wesentliche Erkenntnisse offen: 1) Die Durchführung von Gradientenabstiegsaktualisierungen durch die Abwechslung verschiedener Modalitäten, Verlustfunktionen und Aufgaben bei unterschiedlichen Eingabeauflösungen verbessert das Modell effizient. 2) Die Verdünnung mit MoE auf einem einzigen modalspezifisch neutralen Encoder verbessert die Leistung erheblich, übertreffen dichte Modelle, die modalspezifische Encoders oder zusätzliche Fusionsschichten verwenden, und mildert die Konflikte zwischen den Modalitäten erheblich. IMP erreicht wettbewerbsfähige Ergebnisse in einer Vielzahl von Downstream-Aufgaben, darunter Video-Klassifikation, Bildklassifikation sowie Bild-Text- und Video-Text-Retrieval. Besonders erwähnenswert ist unser spärlich trainiertes IMP-MoE-L-Variantenmodell, das sich auf Videoufgaben konzentriert und neue Standarts in der Zero-Shot-Videoklassifikation aufstellt: 77,0 % auf Kinetics-400, 76,8 % auf Kinetics-600 und 68,3 % auf Kinetics-700. Dies verbessert den bisherigen Stand der Technik um +5 %, +6,7 % und +5,8 % jeweils bei nur 15 % des Gesamtaufwands an Trainingsrechenleistung.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp