HyperAIHyperAI

Command Palette

Search for a command to run...

Évaluation des Agents LLM sur des Tâches Professionnelles Réelles : TheAgentCompany Mesure l'Automatisation à 24%

Chaque jour, notre interaction avec les ordinateurs se fait de plus en plus intense, que ce soit dans le cadre de nos vies personnelles ou professionnelles. De nombreux travaux peuvent désormais être accomplis entièrement grâce à l’accès aux ordinateurs et à Internet. Parallèlement, les progrès réalisés dans le domaine des grands modèles linguistiques (LLMs) ont accéléré le développement d'agents d'intelligence artificielle capables d’interagir avec leur environnement et d’y apporter des modifications significatives. Cependant, ces agents d'IA réussissent-ils à accélérer ou même à automatiser les tâches de travail ? Cette question est cruciale pour les industries souhaitant intégrer l'IA dans leurs processus de travail ainsi que pour les responsables des politiques économiques qui doivent comprendre les implications potentielles de cette adoption sur le marché du travail. Pour répondre à cette question, une équipe de chercheurs a introduit TheAgentCompany, un outil de benchmarking extensible conçu pour évaluer les performances des agents d'IA en matière d'exécution de tâches professionnelles dans le monde réel. Ces agents interagissent avec leur environnement de manière similaire à celle d’un travailleur numérique : ils naviguent sur le web, rédigent des codes, exécutent des programmes et communiquent avec leurs collègues. Pour créer une évaluation réaliste, les chercheurs ont développé un environnement autonome comprenant des sites web internes et des données, reproduisant celui d'une petite entreprise de logiciels. Ils ont ensuite conçu diverses tâches que les employés de ce type d'entreprise pourraient être amenés à effectuer. Les tests ont été effectués sur des agents basés sur des modèles de language closed API et open weights, afin de comparer leurs capacités. Les résultats montrent que, grâce au modèle le plus compétitif, 24% des tâches peuvent être autonomement accomplies par les agents d'IA. Cela dessine un paysage complexe de l'automatisation des tâches par les modèles linguistiques : dans un environnement simulant un véritable lieu de travail, une part non négligeable des tâches simples peut être résolue de manière autonome, mais les tâches complexes à long terme restent en dehors des capacités actuelles des systèmes. Ces constatations suggèrent que, bien que les agents d'IA puissent apporter une valeur significative dans les tâches routinières, leur utilisation pour des missions plus élaborées nécessite encore une intervention humaine. L'étude met également en lumière les limites actuelles des LLMs en termes de compréhension contextuelle, de gestion des erreurs et de capacité à maintenir une cohérence sur de plus longues périodes. Elle souligne l’importance de continuer les recherches pour améliorer ces aspects, tout en explorant des moyens de combiner l'IA et l'intervention humaine de manière efficace pour maximiser la productivité. En conclusion, TheAgentCompany offre un cadre robuste pour mesurer les progrès des agents d'IA dans l'exécution de tâches professionnelles. Bien que les résultats actuels indiquent que l’automatisation complète reste hors de portée pour de nombreuses tâches complexes, ils suggèrent également que l’IA a le potentiel d’alléger considérablement le fardeau des tâches routinières, améliorant ainsi l’efficacité et la qualité du travail. Cette perspective encouragent les entreprises et les chercheurs à investir davantage dans le développement et l'adaptation de ces technologies à des contextes de travail réels.

Liens associés