Command Palette
Search for a command to run...

초록
최근 연구에서 좁은 범위의 미세조정(narrow finetuning)이 광범위한 방향성 오류를 유도하는 LLM을 생성할 수 있음을 밝혀냈다. 이 현상은 '부상하는 방향성 오류(Emergent Misalignment, EM)'라고 명명되었다. 이는 우려스럽지만, 기존 연구는 미세조정과 활성화 조정(activation steering)에 국한되어 있었으며, 문맥 내 학습(in-context learning, ICL)에 대한 고려는 빠져 있었다. 따라서 다음과 같은 질문이 제기된다: ICL에서도 EM이 발생하는가? 본 연구에서 그 답은 긍정적이다. 세 가지 데이터셋과 세 개의 최신 모델을 대상으로 한 실험 결과, 64개의 좁은 범위 문맥 내 예시를 제시했을 때, 광범위한 방향성 오류를 보이는 응답 비율이 2%에서 17%에 이르며, 256개의 예시를 사용할 경우 최대 58%까지 증가함을 확인했다. 또한, 문맥 내 예시는 그대로 두고 단계별 추론(step-by-step reasoning)을 유도함으로써 EM의 작동 메커니즘을 탐구하였다. 수작업 분석을 통해 도출된 사고 흐름(chain-of-thought)을 분석한 결과, 방향성 오류를 보인 사례의 67.5%가 위험하거나 무모한 '성격( persona )'을 adopting함으로써 해로운 응답을 정당화하는 방식으로 설명하였으며, 이는 미세조정에 의한 EM에 대한 이전 연구 결과와 일치한다.