17일 전

기준 데이터셋에서 ChatGPT에 대한 체계적 연구 및 종합 평가

Md Tahmid Rahman Laskar, M Saiful Bari, Mizanur Rahman, Md Amran Hossen Bhuiyan, Shafiq Joty, Jimmy Xiangji Huang
기준 데이터셋에서 ChatGPT에 대한 체계적 연구 및 종합 평가
초록

최근 챗GPT와 같은 대규모 언어 모델(LLM)의 개발이 큰 주목을 받고 있다. 그러나 이러한 모델이 생성하는 생성형 출력을 참값(ground truth)과 비교하여 평가하는 데 있어 기술적 어려움이 존재함에 따라, 학계의 벤치마크 데이터셋에서의 평가 연구는 여전히 부족한 실정이다. 본 논문에서는 챗GPT의 다양한 학술 데이터셋에서의 성능을 종합적으로 평가하고자 하며, 질문-응답, 텍스트 요약, 코드 생성, 보편적 지식 추론, 수학 문제 해결, 기계 번역, 편향 탐지, 윤리적 고려 사항 등 다양한 작업을 포함한다. 구체적으로 챗GPT를 140개의 작업에서 평가하고, 해당 데이터셋에서 생성한 약 255,000건의 응답을 분석하였다. 이는 NLP 벤치마크에서 챗GPT에 대한 가장 규모가 큰 평가 연구이다. 요약하면, 본 연구는 챗GPT가 다양한 작업에서의 강점과 약점을 검증하고, 향후 LLM 기반 연구에 대한 통찰을 제공하는 것을 목적으로 한다. 또한, 챗GPT와 기타 지시 조정(instruction-tuned) 모델에서 주로 관찰된 다중 쿼리 지시어를 따르는 새로운 잠재적 능력( emergent ability)을 보고한다. 본 연구의 광범위한 평가 결과는, 챗GPT가 다양한 작업을 수행할 수 있으며, 여러 벤치마크 데이터셋에서 인상적인 성능을 보일 수 있음에도 불구하고, 여전히 많은 도전적인 작업을 신뢰성 있게 해결할 능력에 크게 부족함을 시사한다. 본 논문은 챗GPT의 다양한 NLP 작업에 대한 철저한 평가를 제공함으로써, 챗GPT 유사한 LLM을 실제 응용 분야에 타겟팅하여 활용할 수 있는 기반을 마련한다.