11일 전

이것은 데이터셋이 아니다: 대규모 언어 모델을 시험할 대규모 부정 벤치마크

Iker García-Ferrero, Begoña Altuna, Javier Álvez, Itziar Gonzalez-Dios, German Rigau
이것은 데이터셋이 아니다: 대규모 언어 모델을 시험할 대규모 부정 벤치마크
초록

대규모 언어 모델(Large Language Models, LLMs)은 명백히 일정 수준의 문법 지식과 일반화 능력을 습득한 것으로 보이지만, 자연어 처리(Natural Language Processing)에서 핵심적인 단계인 부정(Negation)의 해석에는 실패하고 있다. 본 연구는 LLMs가 부정을 이해하는 데서 나타나는 비최적 성능의 원인을 규명하고자 한다. 우리는 약 40만 개의 설명문으로 구성된 대규모 반자동 생성 데이터셋을 제안하며, 이 데이터셋은 일반 지식(commonsense knowledge)에 관한 문장들로 구성되어 있으며, 그 중 약 2/3의 문장에서 다양한 형태로 부정이 등장한다. 본 연구에서는 이 데이터셋을 이용하여 현재 공개된 가장 큰 LLM들을 제로샷(Zero-shot) 방식으로 평가하여 모델의 일반화 및 추론 능력을 분석하였으며, 일부 모델에 대해 부정 문장에 대한 미세조정(Fine-tuning)을 수행하여 부정 이해 능력이 학습 가능한지 여부를 평가하였다. 연구 결과, LLMs는 긍정 문장을 분류하는 데 있어 뛰어난 능력을 보이지만, 부정 문장 처리에서는 어려움을 겪으며, 부정에 대한 깊은 이해가 부족한 것으로 나타났다. 대부분의 경우 모델은 표면적인 단서에 의존하는 것으로 보인다. 부정 문장에 대한 미세조정은 성능 향상에 기여하지만, 부정 처리에 대한 일반화 능력의 부족은 여전히 지속되며, 이는 LLMs가 부정 이해 및 일반화 문제에서 여전히 도전 과제에 직면해 있음을 시사한다. 본 연구에서 사용한 데이터셋과 코드는 공개되어 있다.

이것은 데이터셋이 아니다: 대규모 언어 모델을 시험할 대규모 부정 벤치마크 | 최신 연구 논문 | HyperAI초신경