vor 8 Monaten

Zusammenfassung

FinanceBench ist eine einzigartige Testsuite zur Bewertung der Leistung von LLMs (Large Language Models) bei offenen Finanzfragen (QA). Sie umfasst 10.231 Fragen zu börsennotierten Unternehmen, einschließlich entsprechender Antworten und Beweisstrings. Die Fragen in FinanceBench sind ökologisch valide und decken eine vielfältige Reihe von Szenarien ab. Sie sind so gestaltet, dass sie klar und einfach zu beantworten sind, um als Mindestleistungsstandard zu dienen. Wir testen 16 aktuelle Modellkonfigurationen (darunter GPT-4-Turbo, Llama2 und Claude2 mit Vektorspeichern und langen Kontextanweisungen) anhand einer Stichprobe von 150 Fällen aus FinanceBench und überprüfen deren Antworten manuell (n=2.400). Die Fälle sind Open-Source verfügbar. Unsere Ergebnisse zeigen, dass bestehende LLMs erhebliche Einschränkungen bei der Beantwortung von Finanzfragen aufweisen. Besonders auffällig ist, dass GPT-4-Turbo in Verbindung mit einem Retrievalsysteem 81 % der Fragen falsch oder gar nicht beantwortet hat. Obwohl Erweiterungstechniken wie die Nutzung eines längeren Kontextfensters zur Einbindung relevanter Beweise die Leistung verbessern, sind sie für Unternehmensumgebungen aufgrund erhöhter Latenz unrealistisch und können größere Finanzdokumente nicht unterstützen. Wir stellen fest, dass alle untersuchten Modelle Schwächen aufweisen, wie zum Beispiel Halluzinationen, die ihre Eignung für den Einsatz in Unternehmen begrenzen.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Benchmarks

Retrieval-Augmented Generation

LLM

KI-Infrastruktur

Ansatz/Rahmenwerk

Pranab Islam Anand Kannappan Douwe Kiela Rebecca Qian Nino Scherrer Bertie Vidgen

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Benchmarks

Retrieval-Augmented Generation

LLM

KI-Infrastruktur

Ansatz/Rahmenwerk

Pranab Islam Anand Kannappan Douwe Kiela Rebecca Qian Nino Scherrer Bertie Vidgen

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

FinanceBench: Eine Neue Referenz für Finanzfragenbeantwortung | Paper | HyperAI

Command Palette

FinanceBench: Eine Neue Referenz für Finanzfragenbeantwortung

Pranab Islam Anand Kannappan Douwe Kiela Rebecca Qian Nino Scherrer Bertie Vidgen

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

FinanceBench: Eine Neue Referenz für Finanzfragenbeantwortung

Pranab Islam Anand Kannappan Douwe Kiela Rebecca Qian Nino Scherrer Bertie Vidgen

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

FinanceBench: Eine Neue Referenz für Finanzfragenbeantwortung

Pranab Islam Anand Kannappan Douwe Kiela Rebecca Qian Nino Scherrer Bertie Vidgen

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters