17日前

ベンチマークデータセットにおけるChatGPTの系統的研究と包括的評価

Md Tahmid Rahman Laskar, M Saiful Bari, Mizanur Rahman, Md Amran Hossen Bhuiyan, Shafiq Joty, Jimmy Xiangji Huang
ベンチマークデータセットにおけるChatGPTの系統的研究と包括的評価
要約

近年、ChatGPTを代表とする大規模言語モデル(LLM)の開発が注目を集めている。しかし、これらのモデルが生成する出力が真実値(ground truth)とどのように一致するかを評価する困難さから、学術的なベンチマークデータセットにおける評価は依然として十分に行われていない。本研究では、質問応答、テキスト要約、コード生成、常識的推論、数学的問題解決、機械翻訳、バイアス検出、倫理的考慮など、多様なタスクをカバーする幅広い学術データセット上でChatGPTの性能を包括的に評価することを目的とする。具体的には、140のタスクにわたりChatGPTの評価を行い、これらのデータセット内で生成された25.5万件の応答を分析した。これにより、本研究は自然言語処理(NLP)ベンチマークにおけるChatGPTに関する最大規模の評価となる。要するに、本研究はChatGPTがさまざまなタスクにおいて持つ強みと弱みを検証し、今後のLLMを活用した研究に向けた知見を提供することを目指している。また、本研究では、ChatGPTや他のインストラクションチューニングモデルに多く見られる「複数のクエリを順次処理する指示に従う能力」という、新たな出現的(emergent)な能力を報告する。広範な評価結果から明らかになったのは、ChatGPTが多様なタスクを実行でき、いくつかのベンチマークデータセットでは驚異的な性能を発揮するものの、依然として多くの困難なタスクを信頼性高く解決する能力にはほど遠いということである。本研究は、ChatGPTの多様なNLPタスクにおける性能を包括的に評価することで、今後、ChatGPTと同様のLLMを実世界の応用にターゲットを絞って導入するための基盤を築くものである。