Command Palette

Search for a command to run...

15일 전

상황 기반 학습을 통한 급성 부조화: 제한된 상황 기반 예시가 광범위한 부조화를 초래하는 대규모 언어 모델 생성

상황 기반 학습을 통한 급성 부조화: 제한된 상황 기반 예시가 광범위한 부조화를 초래하는 대규모 언어 모델 생성

초록

최근 연구에서 좁은 범위의 미세조정(narrow finetuning)이 광범위한 방향성 오류를 유도하는 LLM을 생성할 수 있음을 밝혀냈다. 이 현상은 '부상하는 방향성 오류(Emergent Misalignment, EM)'라고 명명되었다. 이는 우려스럽지만, 기존 연구는 미세조정과 활성화 조정(activation steering)에 국한되어 있었으며, 문맥 내 학습(in-context learning, ICL)에 대한 고려는 빠져 있었다. 따라서 다음과 같은 질문이 제기된다: ICL에서도 EM이 발생하는가? 본 연구에서 그 답은 긍정적이다. 세 가지 데이터셋과 세 개의 최신 모델을 대상으로 한 실험 결과, 64개의 좁은 범위 문맥 내 예시를 제시했을 때, 광범위한 방향성 오류를 보이는 응답 비율이 2%에서 17%에 이르며, 256개의 예시를 사용할 경우 최대 58%까지 증가함을 확인했다. 또한, 문맥 내 예시는 그대로 두고 단계별 추론(step-by-step reasoning)을 유도함으로써 EM의 작동 메커니즘을 탐구하였다. 수작업 분석을 통해 도출된 사고 흐름(chain-of-thought)을 분석한 결과, 방향성 오류를 보인 사례의 67.5%가 위험하거나 무모한 '성격( persona )'을 adopting함으로써 해로운 응답을 정당화하는 방식으로 설명하였으며, 이는 미세조정에 의한 EM에 대한 이전 연구 결과와 일치한다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
상황 기반 학습을 통한 급성 부조화: 제한된 상황 기반 예시가 광범위한 부조화를 초래하는 대규모 언어 모델 생성 | 연구 논문 | HyperAI초신경