HyperAIHyperAI

Command Palette

Search for a command to run...

FinanceBench : Un nouveau benchmark pour les réponses aux questions financières

Pranab Islam Anand Kannappan Douwe Kiela Rebecca Qian Nino Scherrer Bertie Vidgen

Résumé

FinanceBench est une suite de tests unique en son genre destinée à évaluer les performances des modèles de langage grandeur nature (LLMs) dans le domaine des réponses aux questions financières ouvertes (QA). Elle comprend 10 231 questions portant sur des entreprises cotées en bourse, accompagnées de leurs réponses et de chaînes de preuves correspondantes. Les questions de FinanceBench sont écologiquement valides et couvrent un ensemble diversifié de scénarios. Elles sont conçues pour être claires et directes, afin de servir de standard minimal de performance. Nous avons testé 16 configurations de modèles d'avant-garde (y compris GPT-4-Turbo, Llama2 et Claude2, avec des magasins vectoriels et des invites à long contexte) sur un échantillon de 150 cas provenant de FinanceBench, dont les réponses ont été revues manuellement (n=2 400). Ces cas sont disponibles sous licence open source. Nous démontrons que les LLMs existants présentent des limitations évidentes pour la QA financière. Notamment, GPT-4-Turbo utilisé avec un système de récupération a fourni une réponse incorrecte ou a refusé de répondre à 81 % des questions. Bien que des techniques d'augmentation, telles que l'utilisation d'une fenêtre contextuelle plus longue pour intégrer des preuves pertinentes, améliorent les performances, elles sont irréalistes dans un contexte d'entreprise en raison d'un temps de latence accru et ne peuvent pas prendre en charge des documents financiers plus volumineux. Nous constatons que tous les modèles examinés présentent des faiblesses, comme les hallucinations, qui limitent leur adéquation pour une utilisation par les entreprises.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp