8ヶ月前

ベンチマーク

検索拡張生成

AIインフラストラクチャ

アプローチ／フレームワーク

Pranab Islam Anand Kannappan Douwe Kiela Rebecca Qian Nino Scherrer Bertie Vidgen

概要

FinanceBenchは、公開された情報に基づく金融質問応答（QA）の性能を評価するための画期的なテストスイートです。このテストスイートには、上場企業に関する10,231の質問とそれに対応する答えおよび証拠文字列が含まれています。FinanceBenchの質問は生態的に有効であり、多様なシナリオをカバーしています。これらの質問は明確かつ単純で、最低限の性能基準として機能することを目指しています。私たちは、FinanceBenchから抽出した150件のケースに対して、最新の16種類のモデル構成（GPT-4-Turbo、Llama2、Claude2など、ベクトルストアや長文コンテキストプロンプトを使用したものを含む）をテストし、その回答を手動でレビューしました（n=2,400）。これらのケースはオープンソースで利用可能です。既存の言語モデル（LLM）が金融QAにおいて明確な制限を持っていることを示しています。特に、検索システムと組み合わせて使用されるGPT-4-Turboは、81%の質問に誤って回答または回答を拒否しました。関連する証拠を長文コンテキストウィンドウにフィードすることでパフォーマンスが向上しますが、エンタープライズ環境では実用的ではなく、遅延が増加するため大規模な金融文書をサポートできません。調査したすべてのモデルは幻覚などの弱点を持ち、これが企業での使用適性を制限していることがわかりました。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

ベンチマーク

検索拡張生成

AIインフラストラクチャ

アプローチ／フレームワーク

Pranab Islam Anand Kannappan Douwe Kiela Rebecca Qian Nino Scherrer Bertie Vidgen

概要

FinanceBenchは、公開された情報に基づく金融質問応答（QA）の性能を評価するための画期的なテストスイートです。このテストスイートには、上場企業に関する10,231の質問とそれに対応する答えおよび証拠文字列が含まれています。FinanceBenchの質問は生態的に有効であり、多様なシナリオをカバーしています。これらの質問は明確かつ単純で、最低限の性能基準として機能することを目指しています。私たちは、FinanceBenchから抽出した150件のケースに対して、最新の16種類のモデル構成（GPT-4-Turbo、Llama2、Claude2など、ベクトルストアや長文コンテキストプロンプトを使用したものを含む）をテストし、その回答を手動でレビューしました（n=2,400）。これらのケースはオープンソースで利用可能です。既存の言語モデル（LLM）が金融QAにおいて明確な制限を持っていることを示しています。特に、検索システムと組み合わせて使用されるGPT-4-Turboは、81%の質問に誤って回答または回答を拒否しました。関連する証拠を長文コンテキストウィンドウにフィードすることでパフォーマンスが向上しますが、エンタープライズ環境では実用的ではなく、遅延が増加するため大規模な金融文書をサポートできません。調査したすべてのモデルは幻覚などの弱点を持ち、これが企業での使用適性を制限していることがわかりました。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

FinanceBench: 金融質問応答の新しいベンチマーク | 記事 | HyperAI超神経