17일 전

VNHSGE 영어 데이터셋에서의 대규모 언어 모델 성능 비교: OpenAI ChatGPT, Microsoft Bing Chat, Google Bard

Xuan-Quy Dao

초록

이 논문은 VNHSGE 영어 데이터셋을 기반으로 OpenAI의 ChatGPT, Microsoft의 Bing Chat(BingChat), Google의 Bard 세 가지 대규모 언어 모델(LLM)의 성능을 비교 분석한다. BingChat, Bard, ChatGPT(GPT-3.5)의 성능은 각각 92.4%, 86%, 79.2%로 나타났으며, 결과적으로 BingChat이 ChatGPT와 Bard보다 우수한 성능을 보였다. 따라서 ChatGPT가 아직 베트남에서 공식적으로 이용 가능하지 않은 상황에서 BingChat과 Bard는 ChatGPT의 대체 가능성이 있음을 시사한다. 또한, BingChat, Bard, ChatGPT 모두 베트남 고등학생들의 영어 능력 수준을 초과하는 성능을 보였으며, 이는 LLM이 영어 교육 분야에서 가진 잠재력을 입증하는 결과이다. 본 연구의 결과는 LLM이 고등학교 수준의 영어 교육에서 효과적인 학습 및 교수 도구로 활용될 수 있음을 보여주며, 대규모 언어 모델의 교육적 활용 가능성에 대한 이해를 심화시킨다. ChatGPT, BingChat, Bard의 뛰어난 성능은 이들 모델이 영어 교육 현장에서 실질적인 도구로 활용될 수 있음을 강력히 시사한다.