2ヶ月前

EconLogicQA: 経済的な順序的推論を評価するための大規模言語モデルの質問応答ベンチマーク

Yinzhu Quan; Zefang Liu
EconLogicQA: 経済的な順序的推論を評価するための大規模言語モデルの質問応答ベンチマーク
要約

本稿では、EconLogicQAという厳密なベンチマークを紹介します。このベンチマークは、経済、ビジネス、サプライチェーン管理の複雑な領域において大規模言語モデル(LLMs)の逐次推論能力を評価するために設計されています。従来のベンチマークが個々の後続イベントを予測するのとは異なり、EconLogicQAはより困難な課題を提示します。つまり、モデルに複数の相互に関連するイベントを見分けて順序付けさせ、経済的な論理の複雑さを捉えることを要求します。EconLogicQAには、経済記事から抽出された多様な多イベントシナリオが含まれており、時間的および論理的なイベント関係性に対する深い理解が必要とされます。包括的な評価を通じて、EconLogicQAが経済的な文脈に内在する逐次的な複雑さを効果的に測定できることを示しています。また、EconLogicQAデータセットの詳細な説明を行い、最先端のLLMsにおけるベンチマーク評価結果も示すことで、これらのモデルが経済的な文脈で持つ逐次推論能力に関する包括的な見方を提供しています。当該ベンチマークデータセットはhttps://huggingface.co/datasets/yinzhu-quan/econ_logic_qa で公開されています。

EconLogicQA: 経済的な順序的推論を評価するための大規模言語モデルの質問応答ベンチマーク | 最新論文 | HyperAI超神経