17日前
VNHSGE英語データセットにおける大規模言語モデルの性能比較:OpenAI ChatGPT、Microsoft Bing Chat、Google Bard
Xuan-Quy Dao

要約
本稿では、VNHSGE英語データセット上で、OpenAIのChatGPT、MicrosoftのBing Chat(BingChat)、GoogleのBardの3つの大規模言語モデル(LLM)の性能を比較した。各モデルの正解率は、BingChatが92.4%、Bardが86%、ChatGPT(GPT-3.5)が79.2%であった。結果から、BingChatがChatGPTおよびBardよりも優れた性能を示したことが明らかになった。したがって、ChatGPTがベトナムで公式に利用可能になる前には、BingChatおよびBardがChatGPTの代替として活用できる可能性がある。また、これらのモデルはベトナムの高校生の英語力よりも優れた成果を上げており、LLMが英語教育における潜在的な有効性を示している。本研究の成果は、大規模言語モデルが高校レベルの英語教育における効果的なツールとしての可能性を理解する上で貢献するものである。ChatGPT、BingChat、Bardの顕著な性能は、これらのモデルが英語の教えることと学ぶことにおいて実用的かつ効果的な支援手段となり得ることを示している。