HyperAI
Back to Headlines

Nouvelle variante DeepSeek R1T2 : 2 fois plus rapide et meilleure en raisonnement.

il y a 14 jours

Il s'est écoulé un peu plus d'un mois depuis que la startup chinoise DeepSeek, une filiale de High-Flyer Capital Management basée à Hong Kong, a lancé la dernière version de son modèle open source, DeepSeek R1-0528. Ce modèle a surpris les communautés de l'IA et des affaires mondiales par sa formation à faible coût et ses performances remarquables dans les tâches de raisonnement, tout en étant gratuit pour les développeurs et les entreprises. Cette semaine, la société allemande TNG Technology Consulting GmbH, fondée il y a 24 ans, a dévoilé une adaptation de ce modèle : DeepSeek-TNG R1T2 Chimera. Ce nouveau modèle fait partie de la famille Chimera de TNG et offre une amélioration significative en termes d'efficacité et de vitesse. Selon TNG, R1T2 atteint entre 90% et 92% des scores d'intelligence de son parent le plus intelligent, DeepSeek-R1-0528, mesurés par des ensembles de tests comme AIME-24, AIME-25 et GPQA-Diamond. Toutefois, il produit des réponses beaucoup plus courtes, utilisant moins de 40% du nombre de jetons de sortie nécessaires à R1-0528. Cela se traduit par une réduction de 60% de la longueur des réponses, ce qui diminue directement le temps d'inference et la charge de calcul, accélérant ainsi les réponses de 200%. R1T2 est construit sans aucun affinage ou réentraînement supplémentaire. Il hérite de la force de raisonnement de R1-0528, des schémas de pensée structurés de R1, et du comportement concis et orienté vers les instructions de V3-0324. Ce modèle est conçu pour maintenir une haute capacité de raisonnement tout en réduisant considérablement les coûts d'inference. L'approche d'Assembly of Experts (AoE) utilisée par TNG diffère de celle de Mixture of Experts (MoE). Le MoE est une architecture où différents composants, ou "experts", sont activés conditionnellement par entrée. Dans les modèles MoE comme DeepSeek-V3 ou Mixtral, seul un sous-ensemble des couches d'experts est actif lors de chaque passage avant. Cette méthode permet aux modèles très volumineux d'atteindre des nombres de paramètres plus élevés et une spécialisation accrue tout en gardant les coûts d'inference gérables. En revanche, l'AoE est une technique de fusion de modèles, non une architecture. Elle consiste à créer un nouveau modèle à partir de plusieurs modèles pré-entraînés en interpolant sélectivement leurs tenseurs de poids. Les "experts" dans l'AoE font référence aux composants de modèles fusionnés, généralement les tenseurs d'experts routés au sein des couches MoE, et non à des experts activés dynamiquement au moment de l'exécution. TNG a mis en œuvre l'AoE en concentrant principalement la fusion sur les tenseurs d'experts routés, responsables du raisonnement spécialisé, tout en conservant souvent les couches partagées et d'attention plus efficaces des modèles plus rapides comme V3-0324. Cette approche permet aux modèles Chimera de conserver la qualité de raisonnement tout en minimisant la verbosité. En termes de performance et de vitesse, R1T2 est plus de 20% plus rapide que R1 et plus de deux fois plus rapide que R1-0528, mesuré en termes de nombre de jetons de sortie par réponse. Cela signifie une réduction significative de la longueur des réponses, ce qui réduit directement le temps d'inference et la charge de calcul, augmentant la vitesse des réponses de 200%. Par rapport à R1, R1T2 est également environ 20% plus concis en moyenne, offrant des gains d'efficacité importants pour les déploiements à haut débit ou sensibles aux coûts. L'efficacité de R1T2 ne compromet pas son intelligence. Comme le montre le graphique de benchmark présenté dans le papier technique de TNG, R1T2 occupe une position désirable sur la courbe de l'intelligence versus le coût de sortie. Il préserve la qualité du raisonnement tout en minimisant la verbosité, ce qui est crucial pour les applications d'entreprise où la vitesse d'inference, le débit et les coûts comptent. Concernant le déploiement, R1T2 est publié sous licence MIT permissive et est disponible sur Hugging Face. Cela signifie qu'il est open source et peut être utilisé et intégré dans des applications commerciales. TNG note cependant que le modèle n'est pas recommandé pour les cas d'utilisation nécessitant des appels de fonction ou l'utilisation d'outils, en raison des limitations héritées de R1. Ces limitations pourraient être abordées dans des mises à jour futures. Les entreprises européennes devraient évaluer leur conformité avec le Règlement européen sur l'IA, qui entrera en vigueur le 2 août 2025. Les entreprises opérant aux États-Unis et desservant des utilisateurs américains ou d'autres pays ne sont pas soumises aux termes du Règlement européen sur l'IA, ce qui leur donne une flexibilité considérable lors de l'utilisation et du déploiement de ce modèle open source rapide et gratuit. Si elles desservent des utilisateurs en Europe, certaines dispositions du règlement s'appliqueront toujours. Pour les décideurs techniques de l'entreprise, tels que les CTO, les propriétaires de plateformes d'IA, les responsables d'ingénierie et les équipes d'approvisionnement informatique, R1T2 offre des avantages tangibles et des options stratégiques : - Réduction des coûts d'inference : Avec moins de jetons de sortie par tâche, R1T2 réduit le temps de GPU et la consommation d'énergie, ce qui se traduit par des économies d'infrastructure, surtout important dans les environnements à haut débit ou en temps réel. - Haute qualité de raisonnement sans surcoût : Il conserve une grande partie de la puissance de raisonnement des modèles de premier plan comme R1-0528, mais sans leur longueur excessive. Cela est idéal pour les tâches structurées (mathématiques, programmation, logique) où des réponses concises sont préférables. - Ouvert et modifiable : La licence MIT permet un contrôle total du déploiement et de la personnalisation, permettant l'hébergement privé, l'alignement du modèle ou un entraînement ultérieur dans des environnements réglementés ou isolés. - Modularité émergente : L'approche AoE suggère un avenir où les modèles seront construits de manière modulaire, permettant aux entreprises de créer des variantes spécialisées en combinant les forces des modèles existants, plutôt que d'entraîner à partir de zéro. Les premières discussions de la communauté Reddit LocalLLaMA soulignent les impressions pratiques de R1T2. Les utilisateurs louent la réactivité du modèle, son efficacité en termes de jetons et son équilibre entre vitesse et cohérence. Un utilisateur a noté : "C'est la première fois qu'un modèle Chimera semble réellement être une amélioration tant en vitesse qu'en qualité." D'autres ont observé que R1T2 présente une personnalité plus ancrée, évitant les hallucinations plus constamment que les modèles basés sur R1 ou V3. Ces traits émergents sont particulièrement pertinents pour les développeurs cherchant des backends d'IA stables pour les environnements de production. R1T2 est disponible au public sous licence MIT sur Hugging Face : DeepSeek-TNG R1T2 Chimera. La publication encourage l'expérimentation communautaire, y compris l'affinage en aval et l'apprentissage par renforcement. Selon TNG, les déploiements internes via la plateforme d'inference serverless Chutes traitent déjà près de 5 milliards de jetons quotidiennement. En conclusion, DeepSeek-TNG R1T2 Chimera démontre le potentiel de la construction par Assembly of Experts pour générer des modèles d'IA performants et efficaces sans nécessiter un entraînement à gradient. En combinant stratégiquement les capacités de raisonnement de R1, le design à faible coût en jetons de V3-0324 et les améliorations de R1-0528, R1T2 établit un nouveau standard de conception équilibrée. Sa publication en open source sous licence MIT garantit l'accessibilité, en faisant un excellent choix pour les développeurs cherchant des modèles d'IA rapides, capables et personnalisables. L'avenir de la fusion de modèles à grande échelle, prouvée même à l'échelle de 671 milliards de paramètres, suggère une nouvelle voie pour des expériences de plus en plus modulaires et interprétables dans le développement de LLMs. TNG invite les chercheurs, les développeurs et les utilisateurs d'entreprise à explorer le modèle, à tester son comportement et à fournir des commentaires. Le papier de recherche et les poids ouverts de R1T2 sont disponibles sur Hugging Face et arXiv. Tous les crédits de cette recherche reviennent aux chercheurs du projet.

Related Links