Command Palette
Search for a command to run...
H-뉴런: 대화형 뉴런의 존재, 영향력 및 기원에 관하여 LLMs 내에서 환각과 관련된 뉴런에 대해
H-뉴런: 대화형 뉴런의 존재, 영향력 및 기원에 관하여 LLMs 내에서 환각과 관련된 뉴런에 대해
Cheng Gao Huimin Chen Chaojun Xiao Zhiyi Chen Zhiyuan Liu Maosong Sun
초록
대규모 언어 모델(Large Language Models, LLMs)은 종종 현실적으로 보이지만 사실과 맞지 않는 출력, 즉 ‘환각(hallucinations)’을 생성하여 신뢰성에 심각한 영향을 미친다. 기존 연구들은 훈련 데이터나 목적 함수와 같은 거시적 관점에서 환각 현상을 탐구해왔지만, 그 뒤에 숨겨진 뉴런 수준의 메커니즘은 여전히 거의 탐색되지 않은 상태이다. 본 연구에서는 LLM 내 환각 관련 뉴런(H-Neurons)에 대해 세 가지 관점—식별, 행동적 영향, 기원—에서 체계적인 탐구를 수행한다. 식별 측면에서, 전체 뉴런의 0.1% 미만에 불과한 매우 희소한 뉴런 집합이 환각 발생을 신뢰성 있게 예측할 수 있음을 입증하였으며, 다양한 시나리오에 걸쳐 강력한 일반화 능력을 보였다. 행동적 영향 측면에서는 통제된 개입 실험을 통해 이러한 뉴런들이 과도한 준수 행동(over-compliance behaviors)과 인과관계가 있음을 확인하였다. 기원 측면에서는 이러한 뉴런들이 사전 훈련된 기반 모델(pre-trained base models)로 거슬러 올라가며, 사전 훈련 과정에서 이미 환각 탐지에 예측 가능성을 갖는다는 점을 발견하였다. 본 연구의 결과는 거시적 행동 패턴과 미시적 뉴런 메커니즘을 연결지으며, 보다 신뢰성 높은 LLM 개발을 위한 통찰을 제공한다.