HyperAIHyperAI

Command Palette

Search for a command to run...

Tongyi DeepResearch révolutionne l’entraînement des modèles : comment un modèle de 30B paramètres bat des géants grâce à des données synthétiques intelligemment générées

Quel sera l’avenir de l’entraînement des grands modèles linguistiques (LLM) ? La réponse pourrait bien être Tongyi DeepResearch, le nouveau modèle de recherche agissant lancé par Alibaba’s Tongyi Lab. Malgré sa taille modeste — seulement 30 milliards de paramètres au total, avec 3 milliards activés par jeton — ce modèle dépasse déjà des concurrents bien plus gros, comme OpenAI o3 ou DeepResearch, sur plusieurs tâches complexes. En comparaison, son homologue open-source DeepSeek v3.1 compte 671 milliards de paramètres, tandis que Kimi Researcher (basé sur Kimi v2) atteint 1 000 milliards. Comment un modèle aussi léger peut-il rivaliser avec des géants ? La clé réside dans une stratégie d’entraînement révolutionnaire fondée sur des données synthétiques. Contrairement aux approches traditionnelles basées sur des corpus de texte préexistants, Tongyi DeepResearch s’appuie sur une paradigme de recherche itérative approfondie (Iterative Deep Research Paradigm), qui étend et enrichit la méthode ReAct classique. Cette avancée repose sur une synthèse active de trajectoires de raisonnement, générées par des modèles eux-mêmes. Le processus repose sur une architecture d’entraînement appelée AgentFounder, décrite dans le papier Scaling Agents via Continual Pre-training. Il se déroule en deux phases : 1. Une première phase d’entraînement préalable avec une longueur contextuelle de 32 000 tokens, 2. Suivie d’une seconde phase avec une capacité de contexte élargie à 128 000 tokens, permettant une compréhension plus profonde des séquences complexes. Pour générer les données d’entraînement, deux méthodes de synthèse ont été mises au point : - Synthèse d’actions de premier ordre (FAS) : au lieu de représenter les connaissances de manière brute (ex. : « Paris est la capitale de la France »), les informations sont ancrées autour d’entités concrètes (ex. : « France » → « Le nombre d’arrivées touristiques en France a atteint 4,222 millions en juin 2025 »). Cette approche permet de construire des jeux de questions-réponses riches et contextuelles, favorisant une mémoire ouverte et dynamique. - Synthèse d’actions de haut niveau (HAS) : ici, à chaque étape du raisonnement, le modèle génère un ensemble de candidats de décision — des chemins alternatifs de recherche ou d’action — sans modifier la décision finale. Cette technique permet d’explorer efficacement de multiples voies, renforçant la robustesse et la flexibilité du modèle. Ces méthodes sont au cœur de travaux récents comme Webshaper et WebSailor-V2, qui montrent comment des agents autonomes peuvent être formés grâce à des données synthétiques et des techniques d’apprentissage par renforcement évolutives. L’idée est simple mais puissante : l’entraînement d’un modèle n’a plus besoin de dépendre exclusivement de données réelles, mais peut exploiter des simulations de raisonnement complexes générées par d’autres modèles. En somme, Tongyi DeepResearch ne gagne pas par la taille, mais par l’intelligence de son entraînement. En combinant une architecture agente continue, une synthèse de données innovante et une exploration itérative du raisonnement, il ouvre la voie à une nouvelle ère : celle de l’entraînement à partir de données synthétisées, où les modèles deviennent non seulement plus performants, mais aussi plus autonomes, plus adaptatifs, et accessibles même à des tailles modérées. L’ère des LLM n’est plus celle du « plus de paramètres », mais celle de la qualité du raisonnement et de la richesse des trajectoires d’apprentissage.

Liens associés