Discord에서 논의하기

5달 전

자연어 처리

Cheng Gao Huimin Chen Chaojun Xiao Zhiyi Chen Zhiyuan Liu Maosong Sun

초록

대규모 언어 모델(Large Language Models, LLMs)은 종종 현실적으로 보이지만 사실과 맞지 않는 출력, 즉 ‘환각(hallucinations)’을 생성하여 신뢰성에 심각한 영향을 미친다. 기존 연구들은 훈련 데이터나 목적 함수와 같은 거시적 관점에서 환각 현상을 탐구해왔지만, 그 뒤에 숨겨진 뉴런 수준의 메커니즘은 여전히 거의 탐색되지 않은 상태이다. 본 연구에서는 LLM 내 환각 관련 뉴런(H-Neurons)에 대해 세 가지 관점—식별, 행동적 영향, 기원—에서 체계적인 탐구를 수행한다. 식별 측면에서, 전체 뉴런의 0.1% 미만에 불과한 매우 희소한 뉴런 집합이 환각 발생을 신뢰성 있게 예측할 수 있음을 입증하였으며, 다양한 시나리오에 걸쳐 강력한 일반화 능력을 보였다. 행동적 영향 측면에서는 통제된 개입 실험을 통해 이러한 뉴런들이 과도한 준수 행동(over-compliance behaviors)과 인과관계가 있음을 확인하였다. 기원 측면에서는 이러한 뉴런들이 사전 훈련된 기반 모델(pre-trained base models)로 거슬러 올라가며, 사전 훈련 과정에서 이미 환각 탐지에 예측 가능성을 갖는다는 점을 발견하였다. 본 연구의 결과는 거시적 행동 패턴과 미시적 뉴런 메커니즘을 연결지으며, 보다 신뢰성 높은 LLM 개발을 위한 통찰을 제공한다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

Discord에서 논의하기

5달 전

자연어 처리

Cheng Gao Huimin Chen Chaojun Xiao Zhiyi Chen Zhiyuan Liu Maosong Sun

초록

대규모 언어 모델(Large Language Models, LLMs)은 종종 현실적으로 보이지만 사실과 맞지 않는 출력, 즉 ‘환각(hallucinations)’을 생성하여 신뢰성에 심각한 영향을 미친다. 기존 연구들은 훈련 데이터나 목적 함수와 같은 거시적 관점에서 환각 현상을 탐구해왔지만, 그 뒤에 숨겨진 뉴런 수준의 메커니즘은 여전히 거의 탐색되지 않은 상태이다. 본 연구에서는 LLM 내 환각 관련 뉴런(H-Neurons)에 대해 세 가지 관점—식별, 행동적 영향, 기원—에서 체계적인 탐구를 수행한다. 식별 측면에서, 전체 뉴런의 0.1% 미만에 불과한 매우 희소한 뉴런 집합이 환각 발생을 신뢰성 있게 예측할 수 있음을 입증하였으며, 다양한 시나리오에 걸쳐 강력한 일반화 능력을 보였다. 행동적 영향 측면에서는 통제된 개입 실험을 통해 이러한 뉴런들이 과도한 준수 행동(over-compliance behaviors)과 인과관계가 있음을 확인하였다. 기원 측면에서는 이러한 뉴런들이 사전 훈련된 기반 모델(pre-trained base models)로 거슬러 올라가며, 사전 훈련 과정에서 이미 환각 탐지에 예측 가능성을 갖는다는 점을 발견하였다. 본 연구의 결과는 거시적 행동 패턴과 미시적 뉴런 메커니즘을 연결지으며, 보다 신뢰성 높은 LLM 개발을 위한 통찰을 제공한다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

H-뉴런: 대화형 뉴런의 존재, 영향력 및 기원에 관하여 LLMs 내에서 환각과 관련된 뉴런에 대해 | 문서 | HyperAI초신경