HyperAI
Back to Headlines

Évolution des Architectures LLM : De GPT-2 à DeepSeek-V3 et au-delà

il y a 2 jours

La Grande Comparaison des Architectures d'LLMs Il s'est écoulé sept ans depuis le développement de l'architecture GPT originale. En regardant backwards vers GPT-2 (2019) et forwards vers DeepSeek-V3 et Llama 4 (2024-2025), on pourrait être surpris de voir combien ces modèles sont encore structuralement similaires. Certes, les plongements positionnels ont évolué des absolus aux rotationnels (RoPE), l'Attention Multi-Tête (Multi-Head Attention, MHA) a largement cédé la place à l'Attention Groupée-Query (Grouped-Query Attention, GQA), et l'activation SwiGLU a remplacé des fonctions d'activation comme GELU. Mais sous ces petits ajustements, avons-nous vraiment vu des changements majeurs ou sommes-nous simplement en train de perfectionner les mêmes bases architecturales ? Comparer les LLMs pour identifier les éléments clés qui contribuent à leurs performances est extrêmement complexe : les jeux de données, les techniques d'entraînement et les hyperparamètres diffèrent largement et ne sont souvent pas bien documentés. Cependant, examiner les modifications structurales de ces architectures peut apporter une valeur ajoutée pour comprendre ce que les développeurs de LLMs font en 2025. DeepSeek-V3 : Une Architecture Performante et Économique Événement clé : DeepSeek-V3 a été introduit en décembre 2024, mais il a connu une reconnaissance importante et une adoption généralisée après le lancement de DeepSeek R1 en janvier 2025. Techniques architecturales : Multi-Head Latent Attention (MLA) : Contrairement à l'Attention Groupée-Query (GQA), qui partage les mêmes projections de clés et de valeurs entre plusieurs têtes d'attention, MLA compresse les tensors de clés et de valeurs dans un espace de dimension inférieure avant de les stocker dans le cache KV (Key-Value). Cette technique réduit l'utilisation de la mémoire pendant l'inference tout en légèrement surpassant la performance de l'Attention Multi-Tête standard (MHA). Mixture-of-Experts (MoE) : Ce modèle utilise des couches MoE où, au lieu d'une seule couche FeedForward dans chaque bloc de transformateur, plusieurs couches FeedForward sont utilisées. Seules quelques couches sont activées lors de l'inference, réduisant ainsi les coûts computationnels. DeepSeek-V3 possède 256 experts par module MoE, totalisant 671 milliards de paramètres, mais utilisant seulement 37 milliards lors de l'inference. OLMo 2 : Des Avancées Subtiles mais Efficaces Événement clé : OLMo 2 a été lancé en janvier 2025. Bien qu'il ne soit pas au sommet des classements, sa transparence en matière de données d'entraînement et de code en fait un excellent point de référence pour le développement de LLMs. Techniques architecturales : RMSNorm : Contrairement à LayerNorm, RMSNorm est une normalisation simplifiée avec moins de paramètres entrainables. OLMo 2 utilise une forme de Post-Norm, plaçant les couches de normalisation après les modules d'attention et FeedForward, ce qui améliore la stabilité de l'entraînement. QK-Norm : Une autre RMSNorm est ajoutée aux requêtes et aux clés avant l'application de RoPE, stabilisant davantage la perte d'entraînement. OLMo 2 utilise toujours l'Attention Multi-Tête traditionnelle (MHA) plutôt que GQA ou MLA. Gemma 3 : Une Approche Locale et Élégante Événement clé : Gemma 3 a été lancé en mars 2025, offrant des performances solides et une efficacité améliorée. Techniques architecturales : Sliding Window Attention : Cette technique réduit les besoins en mémoire du cache KV en restreignant la taille du contexte autour de chaque requête. Gemma 3 utilise un ratio 5:1 entre les couches d'attention globale et locale, avec une taille de fenêtre réduite à 1024 tokens. Placement des Couches de Normalisation : Gemma 3 utilise RMSNorm à la fois en Prés-Norm (avant les modules d'attention et FeedForward) et en Post-Norm, une combinaison intuitive qui ne devrait pas affecter négativement l'efficacité computationnelle. Mistral Small 3.1 : Rapidité et Efficacité Événement clé : Mistral Small 3.1, lancé en mars 2025, surpasse Gemma 3 27B sur plusieurs benchmarks, sauf en mathématiques. Techniques architecturales : Raccourcissement du Cache KV et Réduction du Nombre de Couches : Ces changements permettent une latence d'inference plus faible, rendue possible par un tokenizer personnalisé et une optimisation du code (par exemple, FlashAttention). Attention Groupée-Query Standard : Contrairement à Gemma 3, Mistral Small 3.1 utilise une Attention Groupée-Query standard sans fenêtre glissante, ce qui peut réduire la latence d'inference. Llama 4 : Adoption de l'Architecture MoE Événement clé : Llama 4, lancé en 2025, a adopté l'architecture MoE tout en conservant une structure relativement standard. Techniques architecturales : Attention Groupée-Query : Llama 4 utilisant la GQA plutôt que le MLA, il a moins d'experts actifs (2 experts avec une taille de caché de 8,192) par rapport à DeepSeek-V3 (9 experts avec une taille de caché de 2,048). Alternance MoE et Modules Denses : Llama 4 alterne entre les couches MoE et les modules denses, contrairement à DeepSeek-V3 qui utilisa des modules MoE dans presque tous les blocs de transformateur. Qwen 3 : Flexibilité et Performance Événement clé : Qwen 3 a été lancé en 2025, se distinguant par ses performances élevées dans des classes de taille variées. Techniques architecturales : Dense et MoE Variants : Qwen 3 offre des modèles denses et MoE, optimisant ainsi l'efficacité computationnelle et l'adaptabilité à diverses contraintes de ressources. NoPE (No Positional Embeddings) : La version SmolLM3 de Qwen 3 omet les plongements positionnels (RoPE), améliorant la généralisation sur des séquences plus longues. Cependant, cette technique est appliquée avec prudence, notamment en omettant RoPE tous les 4 blocs de transformateur. Kimi 2.5 : Un Bond en Avant Événement clé : Kimi 2.5 a été lancé en 2025, atteignant des performances comparables aux meilleurs modèles propriétaires comme Google's Gemini, Anthropic's Claude, et ChatGPT d'OpenAI. Techniques architecturales : Variant de l'Optimizer Muon : Utilisation d'un optimizer Muon au lieu d'AdamW, ce qui a permis de lisser les courbes de perte et d'améliorer la stabilité de l'entraînement. Élargissement du Modèle : Kimi 2.5 utilise l'architecture DeepSeek-V3, mais en l'élargissant pour atteindre un trillion de paramètres. Il incorpore également plus d'experts dans les modules MoE et utilise moins de têtes d'attention dans le MLA. Évaluation par les Professionnels de l'Industrie DeepSeek-V3 : Cette architecture est hautement évaluée pour son efficacité combinée à des performances supérieures malgré sa taille massive. Son utilisation avancée de MV et de MLA en fait un modèle de référence. OLMo 2 : Apprécié pour sa transparence en matière de données d'entraînement et de code, bien qu'il ne domine pas les classements. Il offre des insights précieux pour le développement de LLMs. Gemma 3 : Sous-estimé en raison d'une hype moindre, Gemma 3 est cependant très performant dans sa classe de taille. Sa technique de sliding window attention en fait un choix optimal pour l'efficacité computationnelle. Mistral Small 3.1 : Célébré pour sa rapidité d'inference, Mistral Small 3.1 montre que la taille n'est pas toujours synonyme de performance. Llama 4 : Par sa flexibilité en proposant à la fois des variants denses et MoE, Llama 4 peut répondre à une variété plus large de besoins utilisateurs. Qwen 3 : Offrant des modèles optimisés pour différentes tailles, Qwen 3 est particulièrement appréciable pour ses performances élevées sur des appareils à petites ressources, notamment grâce à NoPE. Kimi 2.5 : Reconnaît comme le modèle open-weight le plus impressionnant, il souligne l'importance d'optimisations comme Muon pour améliorer la stabilité et les performances. Profil des Entreprises DeepSeek : Focalisé sur l'efficacité computationnelle et la capacité en inference, DeepSeek a su tirer profit de l'architecture MoE et MLA pour créer des modèles robustes et performants. Allen Institute for AI : Connu pour sa transparence et son engagement dans la recherche ouverte, l'Allen Institute poursuit une approche méthodique dans le développement de modèles LLM. Google : Leader historique en IA, Google continue d'innover avec des techniques comme sliding window attention, adaptées aux besoins spécifiques des utilisateurs. Mistral : Axé sur la rapidité et l'efficacité, Mistral est devenu un favori pour les applications en temps réel. Llama : Mettant l'accent sur la flexibilité, Llama soutient une gamme de besoins en offrant différents variants de modèles. Qwen : Spécialisé dans le développement de modèles à hautes performances, Qwen propose des solutions adaptées à une variété de contextes, de l'enseignement à l'exploitation en production. SmolLM3 : Bien que moins connu, SmolLM3 offre des performances remarquables pour son taille compacte, grâce à des innovations comme NoPE. En conclusion, malgré les similitudes apparentes, chaque modèle LLM de 2025 apporte des contributions uniques et significatives, que ce soit en termes de performances, d'efficacité computationnelle, ou de transparence. Le secteur reste en pleine évolution, promettant des avancées futures encore plus importantes.

Related Links