Phantom der Latenz für große Sprach- und Vision-Modelle

Der Erfolg der visuellen Anweisungstuning-Technik hat die Entwicklung großer Sprach- und Sichtmodelle (LLVMs) beschleunigt. Angesichts der Skalierungsgesetze für an Anweisungen angepasste große Sprachmodelle (LLMs) haben LLVMs ihre Größe weiter erhöht und erreichten nun Parameterzahlen von 26B, 34B und sogar 80B. Obwohl diese Vergrößerung der Modellgröße zu erheblichen Leistungssteigerungen geführt hat, erfordert sie erheblich mehr Hardware-Ressourcen sowohl für das Training als auch für die Inferenz. Folglich besteht ein natürlicher und dringender Bedarf an effizienten LLVMs, die die Leistung großer Modelle erreichen, gleichzeitig aber kleiner in Größe sind. Um diesem Bedarf gerecht zu werden, präsentieren wir eine neue Familie effizienter LLVMs mit Modellgrößen von 0,5B, 1,8B, 3,8B und 7B Parametern – Phantom –, die die Lernfähigkeit innerhalb begrenzter Strukturen erheblich verbessert. Durch eine vorübergehige Erhöhung der latenten versteckten Dimension während des Multi-Head-Self-Attention (MHSA) ermöglichen wir es den LLVMs, viel mehr visuell-sprachliches Wissen auf der latenten Ebene zu erfassen, ohne die physische Modellgröße signifikant zu vergrößern. Um das volle Potenzial auszuschöpfen, führen wir Phantom-Optimierung (PO) ein, die sowohl autoregressive überwachte Feinjustierung (SFT) als auch Konzepte der direkten Präferenzoptimierung (DPO)-ähnlicher Ansätze nutzt, um korrekte Antworten effektiv zu fördern und inkorrekte sowie mehrdeutige Antworten zu eliminieren. Phantom übertrifft zahlreiche größere, sowohl offene als auch geschlossene Quellcode-LLVMs und positioniert sich als führende Lösung im Bereich effizienter LLVMs.