DeepSeek révolutionne l'entraînement des modèles d'IA avec une nouvelle méthode pour échelle plus stable et plus efficace
DeepSeek, l'entreprise chinoise spécialisée en intelligence artificielle, a publié mercredi une nouvelle méthode d'entraînement pour les modèles linguistiques massifs (LLM), une avancée qu'elle qualifie de « tournant dans l'évolution des modèles fondamentaux ». Cette recherche, co-écrite par son fondateur Liang Wenfeng, présente une approche baptisée « Manifold-Constrained Hyper-Connections » (mHC), conçue pour permettre une mise à l’échelle plus efficace des modèles sans compromettre leur stabilité ni leur efficacité computationnelle. À mesure que les modèles s’agrandissent, les chercheurs cherchent à renforcer la communication interne entre leurs composants pour améliorer les performances. Toutefois, cette intensification des échanges augmente le risque d’instabilité, voire de défaillance durant l’entraînement. La méthode mHC contourne ce problème en permettant une communication interne plus riche, tout en la contrôlant rigoureusement à l’aide de contraintes géométriques sur les espaces de représentation (variétés), garantissant ainsi une convergence stable même à grande échelle. Selon Wei Sun, analyste principale en IA chez Counterpoint Research, cette méthode représente une « percée remarquable ». Elle souligne que DeepSeek a combiné plusieurs techniques pour minimiser les coûts supplémentaires liés à l’entraînement, tout en obtenant une performance significativement accrue. Pour Sun, ce papier témoigne non seulement d’une capacité technique avancée, mais aussi d’une capacité à innover de manière radicale, en réinventant l’ensemble de la chaîne d’entraînement. Elle y voit un signe que DeepSeek peut contourner les limites imposées par le manque de puissance de calcul, comme ce fut le cas en janvier 2025 avec le lancement de son modèle R1, capable de rivaliser avec des modèles de pointe comme o1 de ChatGPT à un coût bien inférieur. Lian Jye Su, analyste en chef chez Omdia, estime que cette publication ouvre la voie à une réaction de l’industrie, avec d’autres laboratoires d’IA qui pourraient développer des versions adaptées de l’approche. Il souligne que la volonté de partager des résultats fondamentaux tout en maintenant une avance concurrentielle reflète une nouvelle confiance de l’industrie chinoise de l’IA. L’ouverture devient ainsi un avantage stratégique, un changement de paradigme par rapport à la culture de fermeture traditionnelle. Le timing de cette publication suscite des spéculations sur un nouveau modèle en préparation : le R2. Bien que DeepSeek ait reporté son lancement, initialement prévu en milieu 2025, en raison de performances insatisfaisantes et de pénuries de puces d’IA de pointe, l’annonce de la mHC pourrait indiquer que ce modèle est en cours de développement. Toutefois, Sun reste prudente : elle pense que DeepSeek pourrait intégrer cette nouvelle architecture dans un modèle ultérieur, comme une version V4, plutôt que de lancer un R2 distinct, surtout après avoir déjà intégré des améliorations du R1 dans son modèle V3. Malgré les progrès techniques, DeepSeek peine encore à capter l’attention mondiale, notamment en Occident, comme le souligne Alistair Barr de Business Insider, qui rappelle que la distribution et la visibilité restent des défis majeurs face aux géants comme OpenAI ou Google. Toutefois, cette avancée technique renforce la crédibilité de DeepSeek comme acteur clé dans la course mondiale à l’IA.
