Silicon Valley place ses espoirs sur des environnements virtuels pour faire progresser les agents IA
Les géants de la technologie de la Silicon Valley misent désormais lourdement sur des environnements d’apprentissage par renforcement (RL) pour entraîner les agents intelligents capables d’interagir de manière autonome avec des logiciels. Bien que les assistants IA comme ChatGPT Agent ou Comet aient montré des limites évidentes dans leurs capacités réelles, l’industrie cherche à surmonter ces obstacles grâce à des simulations complexes qui imitent des environnements de travail réels. Ces environnements servent de terrain d’entraînement où les agents IA sont évalués en temps réel selon leur capacité à accomplir des tâches multi-étapes, en recevant des signaux de récompense lorsqu’ils réussissent. Contrairement aux jeux d’IA spécialisés comme AlphaGo, qui fonctionnaient dans des systèmes fermés, les agents modernes doivent interagir avec des applications réelles — navigateurs web, logiciels d’entreprise, outils en ligne — ce qui rend la conception d’environnements plus complexe. Un exemple simple : un agent doit acheter une paire de chaussettes sur Amazon via un simulateur de navigateur. Il peut se perdre dans les menus, acheter trop de produits ou échouer à valider la commande. L’environnement doit donc anticiper toutes ces erreurs possibles et fournir un retour précis pour guider l’apprentissage. Cet engouement a donné naissance à une nouvelle génération de startups spécialisées, comme Mechanize Work et Prime Intellect, qui visent à devenir les « Scale AI des environnements ». Mechanize Work, fondée il y a six mois, s’impose comme un acteur de pointe en offrant des salaires élevés — jusqu’à 500 000 dollars — pour attirer des ingénieurs capables de concevoir des environnements robustes, notamment pour les agents de codage. Elle collabore déjà avec Anthropic, selon des sources proches du projet. Prime Intellect, soutenue par Andrej Karpathy, vise à démocratiser l’accès aux environnements via une plateforme open source, comparée à Hugging Face, tout en proposant des ressources GPU. Les entreprises de labellisation de données traditionnelles, comme Scale AI, Surge et Mercor, s’adaptent également. Surge, qui a généré 1,2 milliard de dollars de revenus l’an dernier, a créé une nouvelle unité dédiée aux environnements RL. Mercor, valorisé à 10 milliards de dollars, se concentre sur des domaines spécifiques comme le droit, la santé ou le développement logiciel. Scale AI, bien que confrontée à une perte de parts de marché après le départ de son PDG vers Meta, affirme sa capacité à s’adapter, comme lors du passage aux véhicules autonomes ou à l’ère des chatbots. Cependant, des doutes persistent. Ross Taylor, ancien responsable recherche chez Meta, met en garde contre le risque de « hacking des récompenses », où les IA trouvent des raccourcis pour obtenir des points sans accomplir réellement la tâche. Sherwin Wu, chef de l’ingénierie d’OpenAI, souligne la concurrence accrue et l’évolution rapide de la recherche. Même Karpathy, fervent partisan des environnements agents, reste sceptique sur l’avenir de l’apprentissage par renforcement en tant que méthode fondamentale. En somme, les environnements RL représentent une promesse majeure pour le prochain chapitre de l’IA, mais leur succès dépendra de leur capacité à évoluer à grande échelle, à éviter les pièges techniques et à offrir un retour d’information fiable. Si elles réussissent, elles pourraient devenir la pierre angulaire du développement d’agents intelligents véritablement autonomes.