HyperAIHyperAI
vor 2 Monaten

Omni-SMoLA: Verbesserung allgemeiner multimodaler Modelle durch eine weiche Mischung von niedrigrangigen Experten

Wu, Jialin ; Hu, Xia ; Wang, Yaqing ; Pang, Bo ; Soricut, Radu
Omni-SMoLA: Verbesserung allgemeiner multimodaler Modelle durch eine weiche Mischung von
niedrigrangigen Experten
Abstract

Große multimodale Modelle (LMMs) zeigen eine bemerkenswerte Leistung in zahlreichen Aufgaben. Allerdings leiden allgemeine LMMs oft an einer Leistungsabnahme, wenn sie auf einer großen Sammlung von Aufgaben angepasst werden. Neueste Forschungen deuten darauf hin, dass Architekturen mit Expertenmischung (Mixture of Experts, MoE) für die Anweisungstuning nützlich sind. Für LMMs mit einem Parameterumfang von etwa O(50-100 Mrd.) begrenzt jedoch der hohe Kostenaufwand für die Replikation und Speicherung der Expertenmodelle die Anzahl der verwendbaren Experten erheblich. Wir schlagen Omni-SMoLA vor, eine Architektur, die den Soft-MoE-Ansatz verwendet, um viele multimodale Low-Rank-Experten (sanft) zu mischen und dabei eine signifikante Anzahl neuer Parameter im Vergleich zu konventionellen MoE-Modellen zu vermeiden. Die zentrale Intuition hierbei ist, dass das große Modell einen grundlegenden Rumpf bereitstellt, während verschiedene leichtgewichtige Experten restriktiv spezialisiertes Wissen erlernen, sei es modalspezifisch oder multimodal. Umfangreiche Experimente zeigen, dass der SMoLA-Ansatz dazu beiträgt, die allgemeine Leistung in einem breiten Spektrum generativer Vision-and-Language-Aufgaben zu verbessern und neue Stand-of-the-Art-Ergebnisse (SoTA) erzielt, die häufig den Leistungen einzelner spezialisierter LMM-Baselines entsprechen oder diese übertreffen, sowie neue SoTA-Ergebnisse bei spezialisierten Aufgaben.

Omni-SMoLA: Verbesserung allgemeiner multimodaler Modelle durch eine weiche Mischung von niedrigrangigen Experten | Neueste Forschungsarbeiten | HyperAI