HyperAIHyperAI
vor 2 Monaten

Alternierender Gradientenabstieg und Expertenmischung für integrierte multimodale Wahrnehmung

Hassan Akbari; Dan Kondratyuk; Yin Cui; Rachel Hornung; Huisheng Wang; Hartwig Adam
Alternierender Gradientenabstieg und Expertenmischung für integrierte multimodale Wahrnehmung
Abstract

Wir stellen Integrated Multimodal Perception (IMP) vor, einen einfachen und skalierbaren Ansatz für multimodales Mehrfachaufgaben-Training und -Modellierung. IMP integriert multimodale Eingaben, einschließlich Bildern, Videos, Texten und Audiosignalen, in einen einzelnen Transformer-Encoder mit minimalen modalspezifischen Komponenten. IMP nutzt ein neuartiges Design, das Alternating Gradient Descent (AGD) und Mixture-of-Experts (MoE) kombiniert, um die Modell- und Aufgaben-Skalierung effizient zu gestalten. Wir führen umfangreiche empirische Studien durch und legen folgende wesentliche Erkenntnisse offen: 1) Die Durchführung von Gradientenabstiegsaktualisierungen durch die Abwechslung verschiedener Modalitäten, Verlustfunktionen und Aufgaben bei unterschiedlichen Eingabeauflösungen verbessert das Modell effizient. 2) Die Verdünnung mit MoE auf einem einzigen modalspezifisch neutralen Encoder verbessert die Leistung erheblich, übertreffen dichte Modelle, die modalspezifische Encoders oder zusätzliche Fusionsschichten verwenden, und mildert die Konflikte zwischen den Modalitäten erheblich. IMP erreicht wettbewerbsfähige Ergebnisse in einer Vielzahl von Downstream-Aufgaben, darunter Video-Klassifikation, Bildklassifikation sowie Bild-Text- und Video-Text-Retrieval. Besonders erwähnenswert ist unser spärlich trainiertes IMP-MoE-L-Variantenmodell, das sich auf Videoufgaben konzentriert und neue Standarts in der Zero-Shot-Videoklassifikation aufstellt: 77,0 % auf Kinetics-400, 76,8 % auf Kinetics-600 und 68,3 % auf Kinetics-700. Dies verbessert den bisherigen Stand der Technik um +5 %, +6,7 % und +5,8 % jeweils bei nur 15 % des Gesamtaufwands an Trainingsrechenleistung.

Alternierender Gradientenabstieg und Expertenmischung für integrierte multimodale Wahrnehmung | Neueste Forschungsarbeiten | HyperAI