17日前

ChatGPTは従来のKBQAモデルを置き換えることができるか？ GPT LLMファミリーの質問応答性能に関する詳細な分析

Yiming Tan, Dehai Min, Yu Li, Wenbo Li, Nan Hu, Yongrui Chen, Guilin Qi

要約

ChatGPTは、Wikipediaなどを含む知識リソースをカバーし、自身の知識を活用して自然言語による質問応答を実現する強力な大規模言語モデル（LLM）である。そのため、ChatGPTが従来の知識ベース型質問応答（KBQA）モデルを代替可能かどうかを検証する関心が高まっている。これまでにChatGPTの質問応答性能に関する分析研究はいくつか存在するが、複雑な種類の質問を大規模かつ包括的にテストし、モデルの限界を分析する試みは依然として不足している。本論文では、Ribeiroらが提唱したCheckListのブラックボックステスト仕様に従ったフレームワークを提示する。我々は、英語6種類および多言語2種類の合計8つの実世界の知識ベース型複雑質問応答データセットを用いて、ChatGPTおよびそのLLMファミリーの性能を評価した。テストケースの総数は約19万件にのぼる。また、GPTファミリーに加えて、広く知られるFLAN-T5も評価対象とすることで、GPTファミリーと他のLLMとの共通特性を明らかにした。本研究で使用したデータセットおよびコードは、https://github.com/tan92hl/Complex-Question-Answering-Evaluation-of-GPT-family.git にて公開されている。