Mind2Web 2 : Évaluation de la recherche agente avec l’agent en tant que juge

La recherche agente, telle que les systèmes de Recherche Profonde (Deep Research), où de grands modèles linguistiques naviguent de manière autonome sur le web, synthétisent des informations et fournissent des réponses exhaustives et étayées par des citations, représente un changement majeur dans la façon dont les utilisateurs interagissent avec des informations à l'échelle du web. Bien qu'elle promette une plus grande efficacité et un délestage cognitif, la complexité croissante et l'ouverture indéterminée de la recherche agente ont dépassé les benchmarks et méthodologies d'évaluation existants, qui supposent en grande partie des horizons de recherche courts et des réponses statiques. Dans cet article, nous présentons Mind2Web 2, un benchmark composé de 130 tâches réalistes, de haute qualité et à horizon long, nécessitant une navigation web en temps réel et une synthèse extensive d'informations, construit avec plus de 1 000 heures de travail humain. Pour relever le défi d'évaluer des réponses complexes et variables dans le temps, nous proposons un cadre novateur appelé Agent-en-Juge. Notre méthode construit des agents juges spécifiques à chaque tâche basés sur une conception structurée en arbre pour évaluer automatiquement à la fois la justesse des réponses et l'attribution des sources. Nous menons une évaluation complète de neuf systèmes de recherche agente avant-gardistes ainsi que des performances humaines, accompagnée d'une analyse détaillée des erreurs pour tirer des enseignements pour le développement futur. Le système performant le mieux, Deep Research d'OpenAI, peut déjà atteindre 50-70% des performances humaines tout en consacrant la moitié du temps, ce qui montre un grand potentiel. Dans son ensemble, Mind2Web 2 fournit une base rigoureuse pour développer et évaluer la prochaine génération de systèmes de recherche agente.