Command Palette
Search for a command to run...
Synthèse des données ouvertes pour une recherche approfondie
Ziyi Xia Kun Luo Hongjin Qian Zheng Liu

Résumé
Les modèles linguistiques massifs (LLM) sont de plus en plus attendus non seulement pour répondre à des requêtes factuelles simples, mais aussi pour mener des tâches de recherche approfondie (Deep Research), qui exigent de décomposer les questions en sous-problèmes, de coordonner un raisonnement en plusieurs étapes, et de synthétiser des preuves provenant de sources diverses. Nous formalisons les tâches de recherche approfondie, dont les réponses sont vérifiables, comme des problèmes de satisfaction de contraintes hiérarchiques (HCSP, Hierarchical Constraint Satisfaction Problems), qui diffèrent fondamentalement des formulations classiques de CSP à une seule contrainte, à plusieurs sauts (multi-hop) ou à structure plane. Toutefois, les benchmarks existants (tels que Natural Questions ou HotpotQA) échouent à capturer cette complexité, tandis que les jeux de données synthétiques récents introduisent souvent des raccourcis de raisonnement, des fuites de connaissances ou manquent d’une profondeur structurelle suffisante. Pour combler ce manque, nous introduisons InfoSeek, un cadre évolutif pour la génération de tâches de recherche approfondie complexes. InfoSeek utilise un système à deux agents pour construire récursivement un arbre de recherche à partir de pages web à grande échelle, en transformant les nœuds intermédiaires en sous-problèmes valides, puis en convertissant ces arbres en questions naturelles nécessitant le parcours intégral de la hiérarchie. Ce cadre permet également une mise à l’échelle rapide, produisant plus de 50 000 exemples d’entraînement, un ensemble de tests soigneusement sélectionné, ainsi que des trajectoires de raisonnement générées par échantillonnage par rejet. Les expériences montrent que les modèles entraînés sur InfoSeek surpassent de manière cohérente les modèles de référence performants. Sur un benchmark exigeant, BrowseComp-Plus, des LLM de 3 milliards de paramètres optimisés avec InfoSeek dépassent des modèles bien plus volumineux (32 milliards de paramètres) ainsi que des API commerciales légères (par exemple, Gemini 2.5-Flash), tout en atteignant un niveau de performance comparable à des API plus puissantes (comme Gemini 2.5-Pro). En préservant des métadonnées telles que les étapes intermédiaires et les étiquettes de récupération, InfoSeek permet également des stratégies d’optimisation avancées, notamment la conception de récompenses composées et l’exploration à l’échelle des trajectoires. Nous mettons à disposition nos codes et jeux de données dans le dépôt GitHub suivant : \href{https://github.com/VectorSpaceLab/InfoSeek}{ce dépôt}.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.