HyperAIHyperAI
vor 2 Monaten

FinanceBench: Eine Neue Referenz für Finanzfragenbeantwortung

Pranab Islam; Anand Kannappan; Douwe Kiela; Rebecca Qian; Nino Scherrer; Bertie Vidgen
FinanceBench: Eine Neue Referenz für Finanzfragenbeantwortung
Abstract

FinanceBench ist eine einzigartige Testsuite zur Bewertung der Leistung von LLMs (Large Language Models) bei offenen Finanzfragen (QA). Sie umfasst 10.231 Fragen zu börsennotierten Unternehmen, einschließlich entsprechender Antworten und Beweisstrings. Die Fragen in FinanceBench sind ökologisch valide und decken eine vielfältige Reihe von Szenarien ab. Sie sind so gestaltet, dass sie klar und einfach zu beantworten sind, um als Mindestleistungsstandard zu dienen. Wir testen 16 aktuelle Modellkonfigurationen (darunter GPT-4-Turbo, Llama2 und Claude2 mit Vektorspeichern und langen Kontextanweisungen) anhand einer Stichprobe von 150 Fällen aus FinanceBench und überprüfen deren Antworten manuell (n=2.400). Die Fälle sind Open-Source verfügbar. Unsere Ergebnisse zeigen, dass bestehende LLMs erhebliche Einschränkungen bei der Beantwortung von Finanzfragen aufweisen. Besonders auffällig ist, dass GPT-4-Turbo in Verbindung mit einem Retrievalsysteem 81 % der Fragen falsch oder gar nicht beantwortet hat. Obwohl Erweiterungstechniken wie die Nutzung eines längeren Kontextfensters zur Einbindung relevanter Beweise die Leistung verbessern, sind sie für Unternehmensumgebungen aufgrund erhöhter Latenz unrealistisch und können größere Finanzdokumente nicht unterstützen. Wir stellen fest, dass alle untersuchten Modelle Schwächen aufweisen, wie zum Beispiel Halluzinationen, die ihre Eignung für den Einsatz in Unternehmen begrenzen.

FinanceBench: Eine Neue Referenz für Finanzfragenbeantwortung | Neueste Forschungsarbeiten | HyperAI