HyperAIHyperAI

Command Palette

Search for a command to run...

Omni-SMoLA: Verbesserung allgemeiner multimodaler Modelle durch eine weiche Mischung von niedrigrangigen Experten

Jialin Wu Xia Hu Yaqing Wang Bo Pang Radu Soricut

Zusammenfassung

Große multimodale Modelle (LMMs) zeigen eine bemerkenswerte Leistung in zahlreichen Aufgaben. Allerdings leiden allgemeine LMMs oft an einer Leistungsabnahme, wenn sie auf einer großen Sammlung von Aufgaben angepasst werden. Neueste Forschungen deuten darauf hin, dass Architekturen mit Expertenmischung (Mixture of Experts, MoE) für die Anweisungstuning nützlich sind. Für LMMs mit einem Parameterumfang von etwa O(50-100 Mrd.) begrenzt jedoch der hohe Kostenaufwand für die Replikation und Speicherung der Expertenmodelle die Anzahl der verwendbaren Experten erheblich. Wir schlagen Omni-SMoLA vor, eine Architektur, die den Soft-MoE-Ansatz verwendet, um viele multimodale Low-Rank-Experten (sanft) zu mischen und dabei eine signifikante Anzahl neuer Parameter im Vergleich zu konventionellen MoE-Modellen zu vermeiden. Die zentrale Intuition hierbei ist, dass das große Modell einen grundlegenden Rumpf bereitstellt, während verschiedene leichtgewichtige Experten restriktiv spezialisiertes Wissen erlernen, sei es modalspezifisch oder multimodal. Umfangreiche Experimente zeigen, dass der SMoLA-Ansatz dazu beiträgt, die allgemeine Leistung in einem breiten Spektrum generativer Vision-and-Language-Aufgaben zu verbessern und neue Stand-of-the-Art-Ergebnisse (SoTA) erzielt, die häufig den Leistungen einzelner spezialisierter LMM-Baselines entsprechen oder diese übertreffen, sowie neue SoTA-Ergebnisse bei spezialisierten Aufgaben.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Omni-SMoLA: Verbesserung allgemeiner multimodaler Modelle durch eine weiche Mischung von niedrigrangigen Experten | Paper | HyperAI