HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 2 jours

Kimi Linear : une architecture d'attention expressive et efficace

Kimi Linear : une architecture d'attention expressive et efficace

Résumé

Nous introduisons Kimi Linear, une architecture hybride d'attention linéaire qui, pour la première fois, surpasse l'attention complète dans des comparaisons équitables sur divers scénarios — y compris les contextes courts, les contextes longs et les régimes d'échelle en apprentissage par renforcement (RL). Au cœur de cette architecture se trouve Kimi Delta Attention (KDA), un module d'attention linéaire expressif qui étend Gated DeltaNet grâce à un mécanisme de mise en gate plus fin, permettant une utilisation plus efficace de la mémoire RNN à états finis limitée. Notre algorithme sur mesure par tranches repose sur une variante spécialisée des matrices de transition Diagonal-Plus-Low-Rank (DPLR), offrant une efficacité matérielle élevée en réduisant significativement la charge de calcul par rapport à la formulation générale DPLR, tout en restant plus cohérente avec la règle classique du delta.Nous préentraînons un modèle Kimi Linear comprenant 3 milliards de paramètres activés et 48 milliards de paramètres au total, basé sur une combinaison hybride par couche de KDA et d'attention latente à plusieurs têtes (MLA). Nos expérimentations montrent qu’avec une recette d’entraînement identique, Kimi Linear surpasse de manière significative l’attention MLA complète sur toutes les tâches évaluées, tout en réduisant l’utilisation de la mémoire tampon KV (KV cache) jusqu’à 75 % et en atteignant une décodage jusqu’à 6 fois plus rapide pour un contexte de 1 million de tokens. Ces résultats démontrent que Kimi Linear peut servir de remplacement direct pour les architectures d’attention complète, offrant des performances et une efficacité supérieures, y compris pour des tâches impliquant des longueurs d’entrée et de sortie plus importantes.Afin de favoriser des recherches ultérieures, nous mettons à disposition en open source le noyau KDA ainsi que les implémentations vLLM, et publions les points de contrôle des modèles préentraînés et ajustés par instruction.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp