HyperAIHyperAI
il y a 3 jours

Des notes aux compétences : un cadre de diagnostic cognitif pour évaluer les grands modèles linguistiques financiers

Ziyan Kuang, Feiyu Zhu, Maowei Jiang, Yanzhao Lai, Zelin Wang, Zhitong Wang, Meikang Qiu, Jiajia Huang, Min Peng, Qianqian Xie, Sophia Ananiadou
Des notes aux compétences : un cadre de diagnostic cognitif pour évaluer les grands modèles linguistiques financiers
Résumé

Les modèles linguistiques à grande échelle (LLM) ont montré un potentiel prometteur pour les applications financières, mais leur adéquation à ce domaine à enjeux élevés reste largement non démontrée en raison des limites des évaluations existantes. Les benchmarks actuels se fondent uniquement sur une évaluation au niveau des scores, qui résume les performances par une seule métrique, masquant ainsi une compréhension nuancée de ce que les modèles savent réellement et de leurs limites précises. De plus, ces benchmarks reposent sur des jeux de données couvrant uniquement un sous-ensemble restreint de concepts financiers, tout en négligeant d'autres éléments essentiels aux applications réelles. Pour combler ces lacunes, nous proposons FinCDM, le premier cadre d'évaluation fondé sur le diagnostic cognitif spécifiquement conçu pour les LLM financiers. Ce cadre permet d’évaluer les modèles au niveau des compétences et des connaissances, en identifiant précisément les compétences financières et les connaissances qu’ils maîtrisent ou qu’ils manquent, sur la base de leurs schémas de réponse dans des tâches étiquetées par compétence, plutôt que sur une simple note agrégée. Nous avons construit CPA-QKA, le premier jeu de données d’évaluation financière informé par la cognition, dérivé de l’examen du Certified Public Accountant (CPA), offrant une couverture exhaustive des compétences réelles en comptabilité et en finance. Ce jeu de données a été rigoureusement annoté par des experts du domaine, qui ont conçu, validé et annoté les questions avec un haut niveau d’accord inter-annotateurs et des étiquettes de connaissances très fines. Nos expérimentations étendues sur 30 modèles LLM propriétaires, open-source et spécialisés révèlent que FinCDM permet de détecter des lacunes cachées dans les connaissances, d’identifier des domaines sous-évalués tels que le raisonnement fiscal et réglementaire, souvent ignorés par les benchmarks traditionnels, et de révéler des clusters comportementaux parmi les modèles. FinCDM introduit ainsi un nouveau paradigme pour l’évaluation des LLM financiers, en permettant une analyse interprétable et consciente des compétences, ce qui soutient un développement plus fiable et ciblé des modèles. L’ensemble des jeux de données et des scripts d’évaluation sera publiquement mis à disposition afin de favoriser les recherches ultérieures.