한 달 전

오이스터-I: 거부를 넘어서기 - 책임 있는 언어 모델을 위한 건설적인 안전성 정렬

Ranjie Duan Jiexi Liu Xiaojun Jia Shiji Zhao Ruoxi Cheng et al

초록

대규모 언어 모델(LLM)은 일반적으로 해로운 콘텐츠 생성을 방지하기 위해 안전 메커니즘을 도입한다. 그러나 현재 대부분의 접근 방식은 악의적인 사용자로부터 발생하는 위험에만 집중하며, 위험을 적대적 사건으로 해석하고 방어적 거부 전략에 의존한다. 그러나 실제 환경에서는 정신적 고통에 시달리는 비악의적 사용자들이 도움을 요청하는 경우도 존재한다(예: 자해 의도). 이러한 상황에서 모델의 응답은 사용자의 다음 행동에 큰 영향을 미칠 수 있다. 단순한 거부는 사용자가 반복하거나 위험을 증가시키거나 안전하지 않은 플랫폼으로 이동하게 만들 수 있으며, 결과적으로 더 나쁜 상황을 초래할 수 있다. 우리는 악의적 남용에 대비하면서도 취약한 사용자를 안전하고 도움이 되는 방향으로 적극적으로 안내하는 인간 중심의 새로운 패러다임인 건설적 안전 정렬(Constructive Safety Alignment, CSA)을 제안한다. 이 기법은 Oyster-I(Oy1)에 구현되며, 사용자 반응에 대한 게임 이론적 예측, 미세한 위험 경계 탐색, 해석 가능한 추론 제어를 결합함으로써 안전성을 신뢰 구축 과정으로 전환한다. Oy1은 오픈 소스 모델 중 최고 수준의 안전성을 달성하면서도 높은 일반화 능력을 유지한다. 우리 개발한 건설적 평가 기준(Constructive Benchmark)에서 Oy1은 GPT-5 수준에 근접한 강한 건설적 참여 능력을 보이며, Strata-Sword 재판 구멍 탐지 테스트에서 GPT-o1 수준에 근접한 뛰어난 강건성을 입증했다. CSA는 ‘거부 우선’에서 ‘안내 우선’으로의 안전 전략 전환을 통해 모델과 사용자 간의 관계를 재정의하며, 단순히 안전한 시스템을 넘어 의미 있는 도움이 되는 시스템을 목표로 한다. 본 연구에서는 Oy1 모델, 코드, 평가 기준을 공개하여 책임감 있는 인간 중심의 AI 개발을 지원한다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩

즉시 사용 가능한 GPU

최적 가격

시작하기

Hyper Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

Command Palette

오이스터-I: 거부를 넘어서기 - 책임 있는 언어 모델을 위한 건설적인 안전성 정렬

Ranjie Duan Jiexi Liu Xiaojun Jia Shiji Zhao Ruoxi Cheng et al

초록

AI로 AI 구축

Hyper Newsletters