HyperAIHyperAI
il y a 3 jours

FutureX : un benchmark en temps réel avancé pour les agents LLM dans la prédiction de l'avenir

Zhiyuan Zeng, Jiashuo Liu, Siyuan Chen, Tianci He, Yali Liao, Jinpeng Wang, Zaiyuan Wang, Yang Yang, Lingyue Yin, Mingren Yin, Zhenwei Zhu, Tianle Cai, Zehui Chen, Jiecao Chen, Yantao Du, Xiang Gao, Jiacheng Guo, Liang Hu, Jianpeng Jiao, Xiangsheng Li, Jingkai Liu, Shuang Ni, Zhoufutu Wen, Ge Zhang, Kaiyuan Zhang, Xin Zhou, Jose Blanchet, Xipeng Qiu, Mengdi Wang, Wenhao Huang
FutureX : un benchmark en temps réel avancé pour les agents LLM dans la prédiction de l'avenir
Résumé

La prévision de l’avenir constitue une tâche complexe pour les agents basés sur les grands modèles linguistiques (LLM), exigeant un haut niveau de raisonnement analytique, de collecte d’informations, de compréhension du contexte et de prise de décision en situation d’incertitude. Ces agents doivent non seulement rassembler et interpréter de vastes quantités d’informations dynamiques, mais aussi intégrer des sources de données diverses, évaluer les incertitudes et adapter leurs prévisions en fonction des tendances émergentes, tout comme le font les experts humains dans des domaines tels que la politique, l’économie ou la finance. Malgré son importance, aucun benchmark à grande échelle n’existe actuellement pour évaluer les agents dans la prévision de l’avenir, principalement en raison des difficultés liées à la gestion des mises à jour en temps réel et à l’obtention de réponses précises et actualisées. Pour répondre à ce défi, nous introduisons $\textbf{FutureX}$, un benchmark d’évaluation dynamique et en temps réel spécifiquement conçu pour les agents LLM effectuant des tâches de prévision de l’avenir. FutureX est le plus grand et le plus diversifié benchmark en temps réel dédié à la prévision de l’avenir, offrant des mises à jour quotidiennes en continu et éliminant tout risque de contamination des données grâce à un pipeline automatisé de collecte de questions et de réponses. Nous évaluons 25 modèles d’agents LLM, incluant des modèles dotés de capacités de raisonnement, de recherche, ainsi que d’intégration d’outils externes tels que l’agent open-source Deep Research et des modèles fermés Deep Research. Cette évaluation exhaustive permet d’analyser le raisonnement adaptatif et la performance des agents dans des environnements dynamiques. En outre, nous fournissons une analyse approfondie des modes d’échec et des failles de performance des agents dans les tâches orientées vers l’avenir, notamment leur vulnérabilité aux pages web frauduleuses et leur validité temporelle. Notre objectif est d’établir une norme d’évaluation dynamique et exempte de contamination, afin de stimuler le développement d’agents LLM capables de rivaliser avec les analystes humains professionnels en matière de raisonnement complexe et de pensée prédictive.