Command Palette

Search for a command to run...

1ヶ月前

FinSearchComp:金融検索および推論の現実的で専門家レベルの評価へ向けて

FinSearchComp:金融検索および推論の現実的で専門家レベルの評価へ向けて

要約

検索は、LLMベースのエージェントにとって基盤的なインフラとして浮上しており、より汎用的な知能への道筋において不可欠であると広く認識されている。財務分野は特に高い要求水準を持つ試験場である。アナリストたちは、時系列に敏感な専門分野特有のデータに対して、複雑で多段階にわたる検索を日常的に行うため、検索能力と知識に基づく推論能力の両方を評価するのに理想的な環境である。しかし、現存するオープンな金融データセットの多くは、エンドツーエンドのエージェントにおけるデータ検索能力を評価しておらず、その主な理由は、現実的で複雑なタスクを構築するには深い財務分野の専門知識が必要であり、時系列に敏感なデータの評価は困難であるためである。本研究では、現実的でオープンドメインの金融検索と推論を対象とした、世界初の完全オープンソースのエージェントベンチマーク「FinSearchComp」を提案する。FinSearchCompは、現実の財務アナリストの業務フローを忠実に再現する3つのタスク——時系列データ取得、単純な歴史データ照会、複雑な歴史的調査——から構成されている。難易度と信頼性を確保するため、70名のプロフェッショナルな財務専門家によるアノテーションを実施し、厳格なマルチステージ品質保証プロセスを導入している。本ベンチマークには、グローバル市場および中国大陸地域市場をカバーする635問が含まれており、21のモデル(製品)を評価した。グローバルサブセットではGrok 4(web)が最も高い性能を示し、専門家レベルの正確性に近づいている。中国大陸地域サブセットではDouBao(web)が首位を占めている。実験的分析の結果、エージェントにウェブ検索機能および財務プラグインを搭載することで、FinSearchCompにおける性能が著しく向上することが明らかになった。また、モデルおよびツールの国別起源が性能に顕著な影響を与えることも示された。現実のアナリストタスクに沿った設計とエンドツーエンド評価を提供する点で、FinSearchCompは、複雑な金融検索と推論に関する専門的かつ高難易度の検証環境を提供する。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
FinSearchComp:金融検索および推論の現実的で専門家レベルの評価へ向けて | 論文 | HyperAI超神経