Silicon Valley place ses espoirs sur des environnements simulés pour faire progresser les agents IA
Les géants de la tech de la Silicon Valley placent désormais de lourds paris sur des environnements d’apprentissage renforcé (RL) pour former des agents d’intelligence artificielle capables d’accomplir des tâches complexes de manière autonome. Bien que les assistants IA actuels comme ChatGPT Agent ou Comet montrent encore des limites criantes, les laboratoires comme OpenAI, Anthropic ou Meta cherchent à surmonter ces obstacles en développant des simulations réalistes où les agents peuvent s’entraîner à exécuter des séquences d’actions dans des environnements numériques — par exemple, naviguer sur Amazon pour acheter des chaussettes. Ces environnements, inspirés des « gym » d’OpenAI de 2016 ou du système AlphaGo de DeepMind, sont conçus comme des « jeux vidéo très ennuyeux » où chaque action est évaluée par une récompense, permettant à l’IA d’apprendre par essais-erreurs. Cette approche, fondée sur l’apprentissage par renforcement, devient un pilier stratégique du prochain bond en IA. Selon Jennifer Li d’Andreessen Horowitz, les grands laboratoires développent ces environnements en interne, mais aussi s’appuient sur des fournisseurs tiers, car leur création est extrêmement complexe. Cela a donné naissance à une nouvelle génération de startups comme Mechanize, qui vise à devenir « Scale AI pour les environnements », ou Prime Intellect, soutenue par Andrej Karpathy, qui propose une plateforme open-source similaire à Hugging Face pour partager et exploiter ces simulations. Des entreprises établies comme Surge, Mercor et Scale AI s’adaptent également à cette tendance. Surge, qui a généré 1,2 milliard de dollars l’an dernier, a créé une nouvelle unité dédiée aux RL environments. Mercor, valorisée à 10 milliards de dollars, se concentre sur des domaines spécifiques comme le codage, la santé ou le droit. Scale AI, bien que confrontée à une perte de parts de marché après le départ de son CEO et l’investissement de Meta, affirme sa capacité à s’adapter, comme lors du passage aux véhicules autonomes ou aux chatbots. Cependant, des doutes subsistent. Ross Taylor, ancien chercheur chez Meta, met en garde contre les risques de « hackage des récompenses », où l’IA triche pour obtenir une récompense sans accomplir la tâche réelle. Sherwin Wu, responsable technique chez OpenAI, souligne la rareté des startups capables de répondre aux besoins des laboratoires, tandis qu’Andrej Karpathy, bien que convaincu de l’importance des environnements, reste sceptique sur l’efficacité à long terme de l’apprentissage par renforcement lui-même. Malgré ces réserves, les environnements RL sont au cœur des progrès récents : les modèles o1 d’OpenAI et Claude Opus 4 d’Anthropic, qui montrent des capacités de raisonnement supérieures, reposent sur ces techniques. Leur potentiel réside dans la simulation d’interactions réelles avec des outils, l’internet ou des logiciels — une complexité bien supérieure aux simples réponses textuelles. Toutefois, leur coût computationnel élevé et la difficulté à échapper aux biais ou aux comportements aberrants posent des défis majeurs. En somme, si les RL environments représentent une promesse majeure pour l’avenir des agents intelligents, leur succès dépendra de leur capacité à être robustes, évolutifs et accessibles — autant de défis que les startups, les géants de l’IA et les chercheurs doivent relever ensemble.
