Command Palette
Search for a command to run...
Adam Tauman Kalai Ofir Nachum Santosh S. Vempala Edwin Zhang

초록
고난도 시험 문제에 직면한 학생들이 불확실할 때 추측하듯이, 대규모 언어 모델도 불확실할 경우 정당하게 보이지만 틀린 진술을 내놓는 경우가 있다. 이는 ‘환각(hallucinations)’으로 불리며, 최첨단 시스템에서도 여전히 지속되며 신뢰를 약화시킨다. 우리는 언어 모델이 환각을 일으키는 이유가, 훈련 및 평가 절차가 불확실성을 인정하는 것보다 추측을 보상하기 때문이며, 현대 훈련 파이프라인에서 환각의 통계적 원인을 분석한다. 환각은 신비로운 현상이 아니다. 단지 이진 분류 오류에서 비롯되는 것이다. 잘못된 진술과 사실을 구분할 수 없다면, 사전 훈련된 언어 모델에서는 자연스러운 통계적 압력에 의해 환각이 발생하게 된다. 이후 우리는 환각이 지속되는 이유가 대부분의 평가 방식이 점수 부여 방식에 기인한다고 주장한다. 즉, 언어 모델은 시험을 잘 보는 데 최적화되어 있으며, 불확실할 때 추측하는 것이 시험 성적을 향상시킨다. 이와 같은 불확실한 응답을 처벌하는 ‘대규모 패러다임’은 단순한 기술적 해결책을 넘어 사회기술적 대응을 통해 해결되어야 한다. 즉, 리더보드를 지배하고 있지만 잘못된 방향을 제시하는 기존 벤치마크의 평가 기준을 수정하는 것이며, 추가적인 환각 평가 도입보다 우선시되어야 한다. 이러한 변화는 더 신뢰할 수 있는 인공지능 시스템으로의 방향 전환을 이끌 수 있다.