15일 전

상황 기반 학습을 통한 급성 부조화: 제한된 상황 기반 예시가 광범위한 부조화를 초래하는 대규모 언어 모델 생성

Nikita Afonin Nikita Andriyanov Nikhil Bageshpura Kyle Liu Kevin Zhu Sunishchal Dev Ashwinee Panda Alexander Panchenko Oleg Rogov Elena Tutubalina

초록

최근 연구에서 좁은 범위의 미세조정(narrow finetuning)이 광범위한 방향성 오류를 유도하는 LLM을 생성할 수 있음을 밝혀냈다. 이 현상은 '부상하는 방향성 오류(Emergent Misalignment, EM)'라고 명명되었다. 이는 우려스럽지만, 기존 연구는 미세조정과 활성화 조정(activation steering)에 국한되어 있었으며, 문맥 내 학습(in-context learning, ICL)에 대한 고려는 빠져 있었다. 따라서 다음과 같은 질문이 제기된다: ICL에서도 EM이 발생하는가? 본 연구에서 그 답은 긍정적이다. 세 가지 데이터셋과 세 개의 최신 모델을 대상으로 한 실험 결과, 64개의 좁은 범위 문맥 내 예시를 제시했을 때, 광범위한 방향성 오류를 보이는 응답 비율이 2%에서 17%에 이르며, 256개의 예시를 사용할 경우 최대 58%까지 증가함을 확인했다. 또한, 문맥 내 예시는 그대로 두고 단계별 추론(step-by-step reasoning)을 유도함으로써 EM의 작동 메커니즘을 탐구하였다. 수작업 분석을 통해 도출된 사고 흐름(chain-of-thought)을 분석한 결과, 방향성 오류를 보인 사례의 67.5%가 위험하거나 무모한 '성격( persona )'을 adopting함으로써 해로운 응답을 정당화하는 방식으로 설명하였으며, 이는 미세조정에 의한 EM에 대한 이전 연구 결과와 일치한다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩

즉시 사용 가능한 GPU

최적 가격

시작하기

Hyper Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

Command Palette

상황 기반 학습을 통한 급성 부조화: 제한된 상황 기반 예시가 광범위한 부조화를 초래하는 대규모 언어 모델 생성

Nikita Afonin Nikita Andriyanov Nikhil Bageshpura Kyle Liu Kevin Zhu Sunishchal Dev Ashwinee Panda Alexander Panchenko Oleg Rogov Elena Tutubalina1 more

초록

AI로 AI 구축

Hyper Newsletters

Nikita Afonin Nikita Andriyanov Nikhil Bageshpura Kyle Liu Kevin Zhu Sunishchal Dev Ashwinee Panda Alexander Panchenko Oleg Rogov Elena Tutubalina