HyperAIHyperAI

Command Palette

Search for a command to run...

Skalierung von Embeddings schlägt Skalierung von Experten in Sprachmodellen

Abstract

Während Mixture-of-Experts-(MoE)-Architekturen zum Standard für die Skalierung von Sparsität in großen Sprachmodellen geworden sind, stoßen sie zunehmend auf abnehmende Erträge und systemweite Engpässe. In dieser Arbeit untersuchen wir die Skalierung von Embeddings als eine wirksame, orthogonale Dimension zur Skalierung von Sparsität. Durch eine umfassende Analyse und Experimente identifizieren wir spezifische Betriebszustände, in denen die Skalierung von Embeddings eine überlegene Pareto-Front im Vergleich zur Skalierung von Experten erreicht. Wir charakterisieren systematisch die entscheidenden architektonischen Faktoren, die diese Wirksamkeit bestimmen – von der Parameterbudgetierung bis hin zur Wechselwirkung mit Modellbreite und -tiefe. Darüber hinaus ermöglicht die Integration maßgeschneiderter Systemoptimierungen und spekulativer Dekodierung die effektive Umwandlung dieser Sparsität in messbare Beschleunigungen bei der Inferenz. Auf Basis dieser Erkenntnisse stellen wir LongCat-Flash-Lite vor, ein Modell mit 68,5 Milliarden Parametern und etwa 3 Milliarden aktivierten Parametern, das von Grund auf trainiert wurde. Trotz der Zuweisung von über 30 Milliarden Parametern an Embeddings übertrifft LongCat-Flash-Lite nicht nur Parameter-äquivalente MoE-Baselines, sondern zeigt sich zudem außerordentlich wettbewerbsfähig gegenüber bestehenden Modellen vergleichbarer Größe, insbesondere in agenten- und coding-spezifischen Anwendungsbereichen.


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp