HyperAIHyperAI

Command Palette

Search for a command to run...

FinanceBench: Eine Neue Referenz für Finanzfragenbeantwortung

Pranab Islam Anand Kannappan Douwe Kiela Rebecca Qian Nino Scherrer Bertie Vidgen

Zusammenfassung

FinanceBench ist eine einzigartige Testsuite zur Bewertung der Leistung von LLMs (Large Language Models) bei offenen Finanzfragen (QA). Sie umfasst 10.231 Fragen zu börsennotierten Unternehmen, einschließlich entsprechender Antworten und Beweisstrings. Die Fragen in FinanceBench sind ökologisch valide und decken eine vielfältige Reihe von Szenarien ab. Sie sind so gestaltet, dass sie klar und einfach zu beantworten sind, um als Mindestleistungsstandard zu dienen. Wir testen 16 aktuelle Modellkonfigurationen (darunter GPT-4-Turbo, Llama2 und Claude2 mit Vektorspeichern und langen Kontextanweisungen) anhand einer Stichprobe von 150 Fällen aus FinanceBench und überprüfen deren Antworten manuell (n=2.400). Die Fälle sind Open-Source verfügbar. Unsere Ergebnisse zeigen, dass bestehende LLMs erhebliche Einschränkungen bei der Beantwortung von Finanzfragen aufweisen. Besonders auffällig ist, dass GPT-4-Turbo in Verbindung mit einem Retrievalsysteem 81 % der Fragen falsch oder gar nicht beantwortet hat. Obwohl Erweiterungstechniken wie die Nutzung eines längeren Kontextfensters zur Einbindung relevanter Beweise die Leistung verbessern, sind sie für Unternehmensumgebungen aufgrund erhöhter Latenz unrealistisch und können größere Finanzdokumente nicht unterstützen. Wir stellen fest, dass alle untersuchten Modelle Schwächen aufweisen, wie zum Beispiel Halluzinationen, die ihre Eignung für den Einsatz in Unternehmen begrenzen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
FinanceBench: Eine Neue Referenz für Finanzfragenbeantwortung | Paper | HyperAI