EconLogicQA : Un Benchmark de Question-Réponse pour Évaluer les Grands Modèles de Langue en Raisonnement Séquentiel Économique

Dans cet article, nous présentons EconLogicQA, un benchmark rigoureux conçu pour évaluer les capacités de raisonnement séquentiel des grands modèles de langage (LLMs) dans les domaines complexes de l'économie, des affaires et de la gestion de la chaîne d'approvisionnement. Contrairement aux benchmarks traditionnels qui prévoient les événements suivants individuellement, EconLogicQA pose une tâche plus ardue : il exige que les modèles identifient et ordonnancent plusieurs événements interconnectés, en capturant la complexité des logiques économiques. EconLogicQA comprend une série de scénarios à multiples événements tirés d'articles économiques, qui nécessitent une compréhension approfondie des relations temporelles et logiques entre les événements. À travers des évaluations exhaustives, nous démontrons que EconLogicQA mesure efficacement la compétence d'un LLM à naviguer dans les complexités séquentielles inhérentes aux contextes économiques. Nous fournissons une description détaillée du jeu de données EconLogicQA et présentons les résultats obtenus lors de l'évaluation du benchmark sur divers modèles de langage de pointe, offrant ainsi une perspective complète sur leur potentiel de raisonnement séquentiel dans les contextes économiques. Notre jeu de données de benchmark est disponible à l'adresse https://huggingface.co/datasets/yinzhu-quan/econ_logic_qa.