HyperAI
Back to Headlines

Tencent Dévoile Hunyuan-A13B : Un Modèle de Langue Économique et Efficace avec Raisonnement Dual et Contexte Étendu

il y a 2 jours

La société Tencent a annoncé l'open-sourcing de Hunyuan-A13B, un nouveau modèle de grandes langues basé sur une architecture fine de mixture d'experts (Sparse Mixture-of-Experts, MoE). Bien que le modèle compte au total 80 milliards de paramètres, seuls 13 milliards sont actifs lors de l'inférence, ce qui offre un équilibre optimal entre performance et coût informatique. Hunyuan-A13B est conçu pour prendre en charge l'Attention Groupée (Grouped Query Attention, GQA), une longueur de contexte de 256K et un cadre de raisonnement en deux modes, alternant entre une réflexion rapide et plus approfondie. Architecture : Sparse MoE avec 13 Milliards de Paramètres Actifs L'architecture centrale de Hunyuan-A13B repose sur un design fin de MoE qui comprend un expert partagé et 64 experts non-partagés. Parmi ces derniers, seuls 8 experts sont activés par passage en avant, assurant ainsi une performance constante tout en minimisant les coûts d'inférence. Le modèle dispose de 32 couches, utilise des fonctions d'activation SwiGLU et un vocabulaire de 128K. La GQA est intégrée pour améliorer l'efficacité mémoire lors des inférences à contexte long. Le processus de formation du modèle a été optimisé, comprenant plusieurs étapes : une phase pré-entraînement sur 20T de jetons, suivie d'un refroidissement rapide et d'une adaptation à des contextes longs. Cette dernière phase étend progressivement la fenêtre de contexte jusqu'à 256K jetons, en utilisant des encodages de position sensibles au noyau de transition de la théorie du potentiel (NTK-aware positional encoding), ce qui garantit une performance stable même pour des séquences très longues. Raisonnement en Deux Modes : Réflexion Rapide et Approfondie Un élément distinctif de Hunyuan-A13B est sa capacité à effectuer des chaînes de pensée (Chain-of-Thought, CoT) en deux modes. Il supporte tant un mode de réflexion rapide à faible latence pour des requêtes courantes qu'un mode de réflexion plus détaillé pour un raisonnement en plusieurs étapes. Ces modes sont sélectionnables via un système de balises simple : "/no think" pour l'inférence rapide et "/think" pour une réflexion plus réfléchie. Cette flexibilité permet d'ajuster le coût de calcul à la complexité de la tâche, offrant ainsi une utilisation plus efficace. Optimisation Post-Entraînement : Apprentissage Renforcéavec Modèles de Récompense Tâche-Spécifiques La ligne d'optimisation post-entraînement de Hunyuan-A13B englobe plusieurs étapes de formation supervisée (Supervised Fine-Tuning, SFT) et d'apprentissage renforcé (Reinforcement Learning, RL), tant pour des tâches spécifiques de raisonnement que pour des tâches générales. Les étapes d'apprentissage renforcé intègrent des récompenses fondées sur les résultats et des retours spécifiques aux outils, notamment des environnements de simulation pour le code et des vérifications basées sur des règles pour les agents. Lors de la phase d'entraînement des agents, l'équipe a synthétisé divers scénarios d'utilisation d'outils, y compris les rôles de planificateur, de vérificateur et d'outil, en générant plus de 20 000 combinaisons de format. Cette approche a renforcé la capacité de Hunyuan-A13B à exécuter des workflows réels, tels que le traitement de tableurs, la recherche d'information et le raisonnement structuré. Évaluation : Performances Agentes de Pointe Hunyuan-A13B obtient des résultats remarquables sur diverses benchmarks pour les tâches de traitement du langage naturel (NLP) : BFCL-v3, τ-Bench, C3-Bench et ComplexFuncBench : Le modèle excelle dans des tâches agentic, fréquemment surpassant des modèles plus volumineux pour l'usage d'outils et les scénarios à contexte long. PenguinScrolls : Il obtient un score de 87.7, légèrement inférieur à Gemini 2.5 Pro. RULER : Avec un score de 73.9, il maintient une performance élevée même pour des contextes de 64K à 128K jetons, surpassant des modèles comme Qwen3-A22B et DeepSeek R1 en résilience contextuelle. Optimisation de l'Inférence et Déploiement Hunyuan-A13B est entièrement compatible avec des frameworks d'inférence populaires comme vLLM, SGLang et TensorRT-LLM. Il supporte différents formats de précision, tels que W16A16, W8A8 et KV Cache FP8, ainsi que des fonctionnalités comme l'Autor-préfixe Caching et le Chunk Prefill. Sur une entrée batch de 32 (2048 jetons d'entrée, 14336 jetons de sortie), le modèle atteint un débit de 1981.99 jetons par seconde, ce qui le rend pratique pour des applications en temps réel. Open-Source et Pertinence Industrielle Disponible sur Hugging Face et GitHub, Hunyuan-A13B est publié sous licence open-source permissive. Il a été conçu pour une utilisation efficace tant en recherche qu'en production, en particulier dans des environnements sensibles à la latence et pour des tâches à contexte long. En combinant la scalabilité MoE, le raisonnement agentic et l'accessibilité open-source, Hunyuan-A13B se positionne comme une alternative convaincante aux grands modèles de langues, permettant des expérimentations et des déploiements plus larges sans compromettre les capacités avancées. Pour en savoir plus, consultez le paper. Tout le crédit de cette recherche revient aux chercheurs impliqués dans le projet. N'hésitez pas à nous suivre sur Twitter, à rejoindre notre communauté de plus de 100 000 abonnés sur ML SubReddit et à vous inscrire à notre newsletter.

Related Links