17일 전

ChatGPT는 전통적인 KBQA 모델을 대체할 수 있는가? GPT LLM 계열의 질문 응답 성능에 대한 심층 분석

Yiming Tan, Dehai Min, Yu Li, Wenbo Li, Nan Hu, Yongrui Chen, Guilin Qi
ChatGPT는 전통적인 KBQA 모델을 대체할 수 있는가? GPT LLM 계열의 질문 응답 성능에 대한 심층 분석
초록

ChatGPT는 위키백과와 같은 지식 자원을 포함하는 강력한 대규모 언어 모델(Large Language Model, LLM)로, 자체 지식을 기반으로 자연어 질문에 대한 답변을 지원한다. 이러한 특성으로 인해, ChatGPT가 기존의 지식 기반 질문 응답(Knowledge-Based Question Answering, KBQA) 모델을 대체할 수 있는지에 대한 관심이 점점 증가하고 있다. 비록 ChatGPT의 질문 응답 성능에 대한 일부 연구가 존재하지만, 여전히 다양한 유형의 복잡한 질문에 대한 대규모이고 종합적인 테스트를 통해 모델의 한계를 분석한 사례는 부족한 실정이다. 본 논문에서는 Ribeiro 등이 제안한 CheckList의 블랙박스 테스팅 사양을 따르는 프레임워크를 제안한다. 우리는 ChatGPT 및 그 계열의 LLM을 실제 세계의 지식 기반 복잡한 질문 응답 데이터셋 8개에 대해 평가하였으며, 이는 영어 데이터셋 6개와 다국어 데이터셋 2개를 포함한다. 테스트 케이스의 총 수는 약 19만 개에 이른다. 또한 GPT 계열 LLM 외에도 잘 알려진 FLAN-T5 모델도 평가하여 GPT 계열과 다른 LLM 간의 공통점을 파악하고자 하였다. 본 연구에서 사용한 데이터셋과 코드는 https://github.com/tan92hl/Complex-Question-Answering-Evaluation-of-GPT-family.git 에 공개되어 있다.