HyperAIHyperAI

Command Palette

Search for a command to run...

スコアからスキルへ:金融分野向け大規模言語モデルの評価を目的とした認知診断枠組み

概要

大規模言語モデル(LLM)は金融分野への応用において有望な成果を示しているが、現行のベンチマークの不備により、その高リスク分野における適性は依然として十分に検証されていない。既存のベンチマークは単一のスコアで性能を要約する点に依存しており、モデルが実際に理解している内容や正確な限界についての洗練された理解を隠蔽している。また、これらのベンチマークは金融概念の狭いサブセットしかカバーしていない一方で、実世界の応用において不可欠な要素を無視している。こうした課題を解決するために、本研究では金融用LLM専用の認知診断評価フレームワーク「FinCDM」を提案する。FinCDMは、モデルの回答パターンを技能タグ付きタスクを通じて分析することで、モデルがどの金融スキルや知識を有しているか、あるいは欠いているかを、単一の集約スコアではなく、知識・技能レベルでの評価が可能にする。さらに、公認会計士(CPA)試験から得られたデータを基に構築された、初めての認知に基づく金融評価データセット「CPA-QKA」を提供する。このデータセットは、現実の会計・金融スキルを包括的にカバーしており、分野の専門家によって厳密にアノテーションが行われており、質問の作成・検証・ラベリングにおいて高い評価者間一致度と細分化された知識ラベルが確保されている。30種類の独自開発・オープンソース・ドメイン特化型LLMを対象とした広範な実験の結果、FinCDMは隠れた知識ギャップを明らかにし、従来のベンチマークが無視しがちな税務および規制リーズニングなど、未十分に検証された領域を特定するとともに、モデル間の行動クラスタを発見した。FinCDMは、解釈可能で技能に配慮した診断を可能にする新たなパラダイムを金融LLM評価に導入し、より信頼性が高く、ターゲットを絞ったモデル開発を支援する。本研究で開発したすべてのデータセットおよび評価スクリプトは公開され、今後の研究を支援する。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
スコアからスキルへ:金融分野向け大規模言語モデルの評価を目的とした認知診断枠組み | 記事 | HyperAI超神経