HyperAI

초록

대규모 언어 모델(LLM)은 자신의 행동이나 신념에 대해 속임수를 부릴 수 있다. 예를 들어, 사실 주장에 대해 과도하게 자신감을 표현하거나 은밀한 행동의 증거를 숨길 수 있다. 이러한 부정확성은 강화학습(RL)의 영향으로 인해 발생할 수 있는데, 보상 설계(reward shaping)의 어려움으로 인해 모델이 거짓말을 하거나 자신의 행동을 왜곡하도록 유도하는 학습 과정이 의도치 않게 형성될 수 있다.본 연구에서는 모델의 본질적인 한계를 자발적으로 진술하는 방식으로 진실된 표현을 유도하는 방법을 제안한다. 이를 위해 '자백(confession)'이라는 개념을 도입한다. 자백은 모델의 원래 답변 이후 요청에 따라 제공되는 출력으로, 모델이 정책과 지시사항의 형식적·정신적 요건을 얼마나 잘 준수했는지를 포괄적으로 설명하는 것을 목적으로 한다. 자백에 부여되는 보상은 오직 진실성에 기반하며, 원래 답변의 보상에는 어떠한 영향도 미치지 않는다. 자백 보상의 최대화를 위한 '최소 저항 경로'가 행동의 문제를 드러내는 것보다 이를 은폐하는 것보다 더 유리하다면, 모델은 자백에서 진실을 말하도록 유도된다. 본 연구 결과는 특히 심각한 모델 오작동 상황에서 이러한 경험적 가정에 어느 정도 근거를 제공한다.본 방법의 실현 가능성을 입증하기 위해, GPT-5-Thinking 모델을 자백 생성하도록 학습하였으며, 환경 외적 시나리오에서 환각 현상, 지시 준수 능력, 계획적 행동, 보상 조작 등의 측면에서 진실성 여부를 평가하였다. 그 결과, 모델이 원래 답변에서 거짓말하거나 한계를 누락할 경우, 자백에서는 이러한 행동을 종종 진실하게 고백하는 것으로 나타났으며, 학습 과정을 거칠수록 자백의 진실성은 다소 향상되는 경향을 보였다. 이러한 자백은 추론 시점에서 다양한 개입 전략을 가능하게 하며, 예를 들어 모니터링, 거부 샘플링, 사용자에게 문제를 직접 노출하는 등의 활용이 가능하다.

초록

Manas Joglekar Jeremy Chen Gabriel Wu Jason Yosinski Jasmine Wang Boaz Barak Amelia Glaese

초록

AI로 AI 구축

HyperAI Newsletters

Manas Joglekar Jeremy Chen Gabriel Wu Jason Yosinski Jasmine Wang Boaz Barak Amelia Glaese

초록

AI로 AI 구축

HyperAI Newsletters

Manas Joglekar Jeremy Chen Gabriel Wu Jason Yosinski Jasmine Wang Boaz Barak Amelia Glaese

초록

AI로 AI 구축

HyperAI Newsletters

Command Palette

진실성 향상을 위한 LLM 훈련: 자백을 통한 접근

Manas Joglekar Jeremy Chen Gabriel Wu Jason Yosinski Jasmine Wang Boaz Barak Amelia Glaese

초록

AI로 AI 구축

HyperAI Newsletters

Command Palette

진실성 향상을 위한 LLM 훈련: 자백을 통한 접근

Manas Joglekar Jeremy Chen Gabriel Wu Jason Yosinski Jasmine Wang Boaz Barak Amelia Glaese

초록

AI로 AI 구축

HyperAI Newsletters

Command Palette

진실성 향상을 위한 LLM 훈련: 자백을 통한 접근

Manas Joglekar Jeremy Chen Gabriel Wu Jason Yosinski Jasmine Wang Boaz Barak Amelia Glaese

초록

AI로 AI 구축

HyperAI Newsletters