Command Palette
Search for a command to run...
FinSearchComp : Vers une évaluation réaliste et de niveau expert de la recherche et du raisonnement financiers

Résumé
La recherche s’est imposée comme une infrastructure fondamentale pour les agents basés sur les grands modèles linguistiques (LLM), et est largement considérée comme essentielle sur la voie menant à une intelligence plus générale. Le domaine financier constitue un terrain d’expérimentation particulièrement exigeant : les analystes effectuent régulièrement des recherches complexes et à plusieurs étapes sur des données spécifiques à un domaine et sensibles au temps, ce qui en fait un cadre idéal pour évaluer à la fois la maîtrise de la recherche et le raisonnement fondé sur des connaissances. Pourtant, aucun jeu de données financières open source existant ne permet d’évaluer la capacité de recherche des agents intégrés (end-to-end), principalement parce que la construction de tâches réalistes et complexes exige une expertise financière approfondie, et que l’évaluation des données à forte sensibilité temporelle reste difficile.Nous présentons FinSearchComp, le premier benchmark open source entièrement dédié à la recherche financière ouverte et au raisonnement dans un contexte réaliste. FinSearchComp comprend trois tâches — Récupération de données sensibles au temps, Recherche historique simple et Investigation historique complexe — qui reproduisent fidèlement les workflows des analystes financiers du monde réel. Pour garantir le niveau de difficulté et la fiabilité, nous avons mobilisé 70 experts financiers professionnels pour l’annotation, et mis en place un pipeline rigoureux de contrôle qualité en plusieurs étapes. Le benchmark inclut 635 questions couvrant les marchés mondiaux et la région de la Chine grande, et nous avons évalué 21 modèles (produits) sur cette plateforme. Grok 4 (web) obtient la meilleure performance sur le sous-ensemble mondial, approchant la précision des experts. DouBao (web) se distingue sur le sous-ensemble de la Chine grande. Des analyses expérimentales montrent qu’équiper les agents de fonctionnalités de recherche web et de plugins financiers améliore significativement leurs résultats sur FinSearchComp, et que l’origine géographique des modèles et des outils influence fortement leurs performances. En s’alignant sur des tâches réalistes pour analystes et en offrant une évaluation end-to-end, FinSearchComp constitue un terrain d’expérimentation professionnel et exigeant pour la recherche et le raisonnement financiers complexes.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.