FinanceBench : Un nouveau benchmark pour les réponses aux questions financières

FinanceBench est une suite de tests unique en son genre destinée à évaluer les performances des modèles de langage grandeur nature (LLMs) dans le domaine des réponses aux questions financières ouvertes (QA). Elle comprend 10 231 questions portant sur des entreprises cotées en bourse, accompagnées de leurs réponses et de chaînes de preuves correspondantes. Les questions de FinanceBench sont écologiquement valides et couvrent un ensemble diversifié de scénarios. Elles sont conçues pour être claires et directes, afin de servir de standard minimal de performance. Nous avons testé 16 configurations de modèles d'avant-garde (y compris GPT-4-Turbo, Llama2 et Claude2, avec des magasins vectoriels et des invites à long contexte) sur un échantillon de 150 cas provenant de FinanceBench, dont les réponses ont été revues manuellement (n=2 400). Ces cas sont disponibles sous licence open source. Nous démontrons que les LLMs existants présentent des limitations évidentes pour la QA financière. Notamment, GPT-4-Turbo utilisé avec un système de récupération a fourni une réponse incorrecte ou a refusé de répondre à 81 % des questions. Bien que des techniques d'augmentation, telles que l'utilisation d'une fenêtre contextuelle plus longue pour intégrer des preuves pertinentes, améliorent les performances, elles sont irréalistes dans un contexte d'entreprise en raison d'un temps de latence accru et ne peuvent pas prendre en charge des documents financiers plus volumineux. Nous constatons que tous les modèles examinés présentent des faiblesses, comme les hallucinations, qui limitent leur adéquation pour une utilisation par les entreprises.