Von Scores zu Fähigkeiten: Ein kognitiver Diagnoserahmen zur Bewertung finanzieller Großsprachmodelle

Große Sprachmodelle (Large Language Models, LLMs) haben für Finanzanwendungen vielversprechende Potenziale gezeigt, ihre Eignung für diesen hochriskanten Bereich bleibt jedoch weitgehend unerprobt, da bestehende Benchmarks unzureichend sind. Die derzeitigen Benchmarks stützen sich ausschließlich auf Bewertungen auf Score-Ebene und fassen die Leistung in einer einzigen Kennzahl zusammen, was eine differenzierte Einschätzung dessen, was Modelle tatsächlich verstehen und welche präzisen Grenzen sie haben, verdeckt. Zudem basieren sie auf Datensätzen, die lediglich einen engen Ausschnitt finanzrelevanter Konzepte abdecken und andere entscheidende Aspekte für praktische Anwendungen vernachlässigen. Um diese Lücken zu schließen, stellen wir FinCDM vor – den ersten kognitiven Diagnose-Evaluierungsrahmen, der speziell für Finanz-LLMs entwickelt wurde. FinCDM ermöglicht die Bewertung von LLMs auf der Ebene von Wissen und Fähigkeiten, indem es identifiziert, welche finanzspezifischen Fähigkeiten und Kenntnisse die Modelle besitzen oder fehlen, basierend auf ihren Antwortmustern in auf Fähigkeiten annotierten Aufgaben – anstelle einer einzigen aggregierten Zahl. Wir haben CPA-QKA erstellt, den ersten kognitionsbasierten Finanz-Evaluierungsdatensatz, der aus der Prüfung zum staatlich geprüften Buchhalter (Certified Public Accountant, CPA) abgeleitet ist, und der eine umfassende Abdeckung realweltbezogener Buchhaltungs- und Finanzkompetenzen bietet. Der Datensatz wurde durch Fachexperten sorgfältig annotiert, die Fragen verfasst, validiert und mit hoher Inter-Annotator-Übereinstimmung sowie fein granularen Wissenslabels versehen haben. Unsere umfangreichen Experimente an 30 proprietären, Open-Source- und domain-spezifischen LLMs zeigen, dass FinCDM verborgene Wissenslücken aufdeckt, bisher unterbewertete Bereiche wie Steuer- und Regulierungsreasoning identifiziert, die traditionelle Benchmarks übersehen, und Verhaltenscluster unter den Modellen aufzeigt. FinCDM etabliert eine neue Paradigmen für die Bewertung von Finanz-LLMs, indem er interpretierbare, fähigkeitsorientierte Diagnosen ermöglicht, die eine vertrauenswürdigere und gezieltere Modellentwicklung unterstützen. Alle Datensätze und Evaluierungsskripte werden öffentlich verfügbar gemacht, um die weitere Forschung zu fördern.