Command Palette

Search for a command to run...

한 달 전

큰 추론 모델은 결함 있는 사고에서 더 나은 일치를 학습한다

ShengYun Peng Eric Smith Ivan Evtimov Song Jiang Pin-Yu Chen Hongyuan Zhan Haozhu Wang Duen Horng Chau Mahesh Pasupuleti Jianfeng Chi

큰 추론 모델은 결함 있는 사고에서 더 나은 일치를 학습한다

초록

대규모 추론 모델(LRMs)은 최종 답변을 생성하기 전에 구조화된 사고의 흐름(CoT)을 생성함으로써 ‘사고’를 수행하지만, 여전히 안전성 정렬에 대해 비판적으로 추론하는 능력이 부족하며, 잘못된 전제가 사고 과정에 삽입될 경우 쉽게 편향되는 문제가 있다. 본 연구에서는 ‘반대 정렬 사전 채우기(Counter-Aligned Prefilling)를 통한 강건한 안전성 정렬(RECAP)’을 제안한다. 이는 사후 훈련을 위한 체계적인 강화학습(RL) 방법으로, 모델이 잘못된 추론 경로를 의도적으로 무시하고 안전하며 유용한 응답으로 경로를 재설정하도록 명시적으로 학습시킨다. RECAP는 합성적으로 생성된 반대 정렬 CoT 사전 채우기와 표준 프롬프트의 혼합 데이터를 기반으로 훈련되며, 기존 인간 피드백을 통한 강화학습(RLHF)에 비해 추가적인 훈련 비용이나 구조적 수정 없이도 작동한다. 이 방법은 안전성과 해킹 공격에 대한 저항력을 크게 향상시키고, 과도한 거부 반응을 줄이며, 핵심 추론 능력을 유지하면서도 추론 시 사용하는 토큰 예산을 유지한다. 광범위한 분석 결과, RECAP로 훈련된 모델은 더 자주 자기 반성(self-reflection)을 수행하며, 적응형 공격에도 강건성을 유지하며, 반복적인 시도에도 불구하고 안전성을 지속적으로 보존함을 확인했다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
큰 추론 모델은 결함 있는 사고에서 더 나은 일치를 학습한다 | 연구 논문 | HyperAI초신경