HyperAIHyperAI

Command Palette

Search for a command to run...

TNG Technology Consulting lance R1T2, une version accélérée de DeepSeek-R1-0528 avec 200% de gain en rapidité

En raison du retard de DeepSeek-R2, une équipe allemande a décidé de prendre les devants. Le TNG Technology Consulting GmbH (désormais appelé TNG) a mis au point la version DeepSeek-TNG R1T2 Chimera (ou simplement R1T2), une amélioration notable du modèle DeepSeek R1-0528, avec une vitesse 200% supérieure. Composée de 671 milliards de paramètres, cette nouvelle variante ouverte représente le dernier ajout à la série de modèles Chimera développée par l'équipe TNG. Contrairement à R1-0528, qui est connu pour ses longues et détaillées réponses grâce à l'extension de ses chaînes de raisonnement, le R1T2 est conçu pour répondre de manière plus concise sans sacrifier l'intelligence. Le R1T2 adopte également la méthode Assembly-of-Experts (AoE) proposée par l'équipe TNG. Cette approche consiste à combiner de manière sélective les tenseurs d'experts (paramètres internes) de plusieurs modèles préentraînés pour construire un grand modèle hybride. Le TNG est une entreprise respectée dans le domaine de l'AI, ayant été cofondée en 2001 par Henrik Klagges, un ingénieur diplômé de l'Université d'Oxford en 1994. L'entreprise emploie aujourd'hui 917 personnes, dont 99,9% ont un background académique, et plus de 50% sont titulaires d'un doctorat en mathématiques, physique ou informatique, ce qui confère à l'équipe une expertise notable dans le développement de modèles AI avancés. Dans le cadre de leur recherche, l'équipe TNG avait déjà combiné les tenseurs d'experts entre les modèles DeepSeek-V3-0324 et DeepSeek-R1 pour créer le DeepSeek-R1T-Chimera (ou simplement R1T). La nouvelle itération, R1T2, conserve la performance de raisonnement de DeepSeek-R1, tout en améliorant considérablement l'efficacité et la vitesse. Selon les résultats de l'évaluation, R1T2 atteint 90% à 92% de la performance de raisonnement du modèle le plus intelligent parmi les parents, DeepSeek-R1-0528, mais en produisant environ 40% des tokens nécessaires pour générer une réponse. Cette réduction de 60% en longueur de sortie se traduit directement par une diminution substantielle du temps de raisonnement et de la charge de calcul, augmentant ainsi la vitesse de réponse de 200% par rapport à R1-0528. Par comparaison à l'original DeepSeek-R1, R1T2 offre également une réduction d'environ 20% en termes de concision, ce qui représente un gain significatif d'efficacité pour les déploiements à haut débit ou sensibles aux coûts, sans compromettre la qualité de raisonnement. L'équipe TNG utilise la concision des réponses, mesurée par le nombre de tokens produits pour chaque réponse, comme principal indicateur de performance. Cette mesure permet de refléter à la fois le coût et la latence, ce qui est crucial pour les applications d'entreprise où la rapidité, la capacité de traitement et les coûts opérationnels sont des enjeux majeurs. Pour renforcer encore davantage R1T2, une nouvelle configuration baptisée "Tri-Mind" a été introduite. Cette configuration intègre trois modèles parents : DeepSeek-R1-0528, DeepSeek-R1 et DeepSeek-V3-0324, chaque modèle contribuant à des aspects distincts du comportement global du modèle final. La différence entre Assembly-of-Experts (AoE) et Mixture-of-Experts (MoE) mérite quelques précisions. TNG propose AOE comme une technique de fusion de modèles plutôt qu'une architecture spécifique. AoE permet de combiner de manière linéaire les tenseurs d'experts de plusieurs modèles préentraînés MoE pour créer un sous-modèle hybride qui hérite des meilleures caractéristiques de ses modèles parents. Par exemple, R1T2 bénéficie des capacités de raisonnement avancée de DeepSeek-R1, de la structuration de la pensée apportée par DeepSeek-R1-0528, et du comportement orienté instruction simplifié de DeepSeek-V3-0324. Cette démarche optimise la capacité de raisonnement tout en réduisant l' VERBOSE, répondant ainsi aux exigences strictes des applications d'entreprise. MoE, quant à lui, est une architecture dans laquelle différents experts, ou composants, sont activés de manière conditionnelle selon l'entrée reçue. Dans cette configuration, seul un sous-ensemble des experts est actif pour chaque token. Bien que cette approche permette de maintenir les coûts de raisonnement gérables malgré l'augmentation du nombre de paramètres, elle n'optimise pas autant la performance globale en termes de vitesse et de coût par réponse. Le R1T2 est largement soutenu par la communauté de développeurs AI. Vaibhav (VB) Srivastav, un leader sénior chez Hugging Face, a tweeté : "C'est impressionnant ! Le modèle DeepSeek R1T2 — 200% plus rapide que R1-0528 et 20% plus rapide que R1. Il offre une performance significativement supérieure sur les jeux de données GPQA et AIME-24, utilisant une architecture Assembly-of-Experts combinant les atouts de DS V3, R1 et R1-0528. Le modèle est open-source, sous licence MIT, et disponible sur Hugging Face." Les avantages du R1T2 pour les acteurs technologiques et les entreprises sont multiples : Coût inférieur : En générant moins de tokens pour chaque tâche, R1T2 réduit considérablement le temps processeur et l'énergie consommée, ce qui entraîne des économies directes sur les coûts d'infrastructure, particulièrement importants dans les environnements à haut débit ou en temps réel. Qualité de raisonnement haute sans redondances : R1T2 maintient la grande majorité des capacités de raisonnement des meilleurs modèles, tels que DeepSeek-R1-0528, sans les inconvénients liés à leurs réponses verboses. Cette caractéristique est idéale pour les tâches structurées comme les mathématiques, la programmation et la logique, où une réponse concise est souvent préférée. Open-source et modifiable : La licence MIT accorde un contrôle total sur le déploiement et offre des possibilités de personnalisation, ce qui permet d'héberger le modèle de manière privée dans des environnements réglementés ou isolés, ainsi que de l'aligner ou de le réentraîner davantage si nécessaire. Approche modulaire : L'utilisation de la méthode AoE indique une tendance future vers la construction de modèles de manière modulaire, où les entreprises pourront assembler des variantes spécialisées en combinant les forces des modèles existants, sans avoir à les réentraîner entièrement. Il convient cependant de noter certaines limitations : les applications nécessitant des appels de fonction ou l'utilisation d'outils devraient être attentives aux restrictions actuelles, bien que des mises à jour futures du modèle Chimera pourraient y remédier. Les prototypes Chimera ont déjà été intégrés à des plates-formes comme OpenRouter et Chutes, où ils traitent des milliards de tokens quotidiennement, ce qui témoigne de leur robustesse et fiabilité. Pour les utilisateurs européens, TNG conseille de vérifier la conformité du modèle avec le règlement AI de l'Union européenne, qui entrera en vigueur le 2 août 2025. Les entreprises opérant en Europe doivent examiner attentivement les dispositions pour s'assurer qu'elles les respectent ; si tel n'est pas le cas, elles devraient planifier l'arrêt de l'utilisation du modèle après cette date. Les entreprises américaines, qui opèrent principalement sur le territoire des États-Unis, ne sont pas soumises aux clauses de cette législation, ce qui leur offre une grande flexibilité pour utiliser et déployer ce modèle rapide et gratuit, bien qu'elles doivent encore respecter les obligations légales en matière de services fournis aux utilisateurs de l'UE. Cette initiative de TNG montre une tendance croissante où les développeurs locaux prennent désormais le relais pour créer des variations de modèles basés sur des modèles originaux étrangers. En reflet, cela illustre une dynamique où la technologie chinoise passe de l'étape de reproduction à celle de compétition, voire d'avance, sur le plan international. Pour plus d'informations, vous pouvez consulter le papier de référence sur arXiv et les ressources de Hugging Face : - Papier de référence - Modèle sur Hugging Face - Tweet de Vaibhav Srivastav - Profil LinkedIn de Vaibhav Srivastav

Liens associés

TNG Technology Consulting lance R1T2, une version accélérée de DeepSeek-R1-0528 avec 200% de gain en rapidité | Articles tendance | HyperAI