WebShaper : Synthèse de données agissante par formalisation de la recherche d'information

L'avènement des agents alimentés par les grands modèles de langage (LLM) a révolutionné l'intelligence artificielle en permettant de résoudre des tâches complexes et à réponse ouverte grâce à des capacités de recherche d'information basées sur le web (IS). La rareté des données d'entraînement de haute qualité a limité le développement des agents IS. Les approches existantes adoptent généralement un paradigme axé sur l'information, qui consiste à collecter d'abord des données du web, puis à générer des questions à partir des informations récupérées. Cependant, cela peut entraîner une incohérence entre la structure de l'information et la structure du raisonnement, entre les questions et les réponses. Pour atténuer ce problème, nous proposons un cadre de synthèse de données IS basé sur une formalisation, appelé WebShaper, afin de construire un ensemble de données. WebShaper formalise de manière systématique les tâches IS à l'aide de la théorie des ensembles. Au cœur de cette formalisation se trouve le concept de Projections de Connaissances (KP), qui permet de contrôler précisément la structure du raisonnement grâce aux compositions d'opérations KP. Pendant la synthèse, nous commençons par créer des tâches initiales (seed tasks), puis nous utilisons un processus d'expansion en plusieurs étapes. À chaque étape, un Expander agissant (agent) élargit la question formelle actuelle en la rendant plus complexe, en utilisant des outils de recherche et de validation basés sur notre formalisation. Nous entraînons notre modèle sur l'ensemble de données synthétisé. Les résultats expérimentaux montrent que WebShaper atteint des performances de pointe parmi les agents IS open source sur les benchmarks GAIA et WebWalkerQA.