2ヶ月前

FinanceBench: 金融質問応答の新しいベンチマーク

Pranab Islam; Anand Kannappan; Douwe Kiela; Rebecca Qian; Nino Scherrer; Bertie Vidgen
FinanceBench: 金融質問応答の新しいベンチマーク
要約

FinanceBenchは、公開された情報に基づく金融質問応答(QA)の性能を評価するための画期的なテストスイートです。このテストスイートには、上場企業に関する10,231の質問とそれに対応する答えおよび証拠文字列が含まれています。FinanceBenchの質問は生態的に有効であり、多様なシナリオをカバーしています。これらの質問は明確かつ単純で、最低限の性能基準として機能することを目指しています。私たちは、FinanceBenchから抽出した150件のケースに対して、最新の16種類のモデル構成(GPT-4-Turbo、Llama2、Claude2など、ベクトルストアや長文コンテキストプロンプトを使用したものを含む)をテストし、その回答を手動でレビューしました(n=2,400)。これらのケースはオープンソースで利用可能です。既存の言語モデル(LLM)が金融QAにおいて明確な制限を持っていることを示しています。特に、検索システムと組み合わせて使用されるGPT-4-Turboは、81%の質問に誤って回答または回答を拒否しました。関連する証拠を長文コンテキストウィンドウにフィードすることでパフォーマンスが向上しますが、エンタープライズ環境では実用的ではなく、遅延が増加するため大規模な金融文書をサポートできません。調査したすべてのモデルは幻覚などの弱点を持ち、これが企業での使用適性を制限していることがわかりました。

FinanceBench: 金融質問応答の新しいベンチマーク | 最新論文 | HyperAI超神経