17일 전

안전성 정렬을 위한 발화 체인을 활용한 대규모 언어 모델의 레드팀 운영

Rishabh Bhardwaj, Soujanya Poria
안전성 정렬을 위한 발화 체인을 활용한 대규모 언어 모델의 레드팀 운영
초록

대규모 언어 모델(LLM)은 다음 단어 예측 목적 함수를 최적화함으로써 막대한 다중 작업 능력을 갖추며 세계를 강타하고 있다. 이러한 모델들이 갖는 특성과 내장된 지식의 등장으로 인해, 해로운 출력을 생성할 위험성이 증가하면서 공공 부문에서의 확장 가능한 배포에 부적합해지고 있다. 본 연구에서는 레드팀(Red-teaming)을 수행하는 새로운 안전성 평가 벤치마크인 RED-EVAL을 제안한다. 우리는 기존에 널리 배포된 모델들조차 체인 오브 어터런스(Chain of Utterances, CoU) 기반 프롬프팅에 취약함을 보여주며, GPT-4 및 ChatGPT과 같은 폐쇄 소스 LLM 기반 시스템을 해킹하여 65% 이상, 73% 이상의 해로운 질의에 비윤리적인 응답을 하게 함을 입증하였다. 또한 RED-EVAL이 8개의 오픈소스 LLM에서 레드팀 시도의 86% 이상에서 해로운 응답 생성을 일관되게 유도함을 보였다. 다음으로, LLM의 안전성 정렬을 위한 새로운 접근 방식인 RED-INSTRUCT를 제안한다. 이는 두 단계로 구성된다. 1) HARMFULQA 데이터 수집: CoU 프롬프팅을 활용하여 총 1,900개의 해로운 질문(다양한 주제를 포함), ChatGPT에서 수집한 9,500개의 안전한 대화 및 7,300개의 해로운 대화로 구성된 데이터셋을 구축하였다. 2) SAFE-ALIGN: 대화형 데이터셋을 활용하여 유용한 응답에 대한 음의 로그 가능도를 최소화하고, 유해한 응답에 대해 샘플 손실에 대한 기울기 강화(gradient accent)를 통해 처벌하는 방식으로 LLM의 안전성 정렬을 실현하였다. Fine-tuned된 Vicuna-7B 기반 모델인 STARLING은 RED-EVAL 및 HHH 벤치마크에서 기존 모델의 유효성(utility)을 유지하면서도 더 높은 수준의 안전성 정렬이 이루어짐을 관측하였다.

안전성 정렬을 위한 발화 체인을 활용한 대규모 언어 모델의 레드팀 운영 | 최신 연구 논문 | HyperAI초신경