한 달 전
언어 모델의 해를 줄이기 위한 레드팀: 방법, 확장 행동 및 학습된 교훈
Deep Ganguli, Liane Lovitt, Jackson Kernion, Amanda Askell, Yuntao Bai, et al

초록
우리는 언어 모델의 잠재적 해로운 출력을 동시에 탐지하고 측정하며, 이를 줄이려는 초기 노력에 대해 설명한다. 본 연구는 세 가지 주요 기여를 한다. 첫째, 2.7B, 13B, 52B 파라미터 규모의 3가지 모델 크기와 4가지 모델 유형(일반 언어 모델(LM), 유용하고 성실하며 무해하도록 유도하는 프롬프트를 적용한 LM, 거부 샘플링을 사용한 LM, 인간 피드백 기반 강화학습(RLHF)을 통해 유용하고 무해하도록 훈련된 모델)에 걸쳐 레드팀(적군) 시험의 스케일링 특성을 조사한다. 그 결과, RLHF를 적용한 모델은 규모가 증가함에 따라 점점 더 레드팀 시험에 강해지는 경향을 보였으며, 다른 모델 유형은 규모 증가에 비해 평탄한 추세를 보였다. 둘째, 타인의 분석과 학습을 위해 38,961건의 레드팀 공격 데이터셋을 공개한다. 본 연구팀은 해당 데이터에 대한 자체 분석을 수행하여, 폭력적이지 않은 비윤리적 출력을 포함한 다양한 해로운 출력 양상을 발견하였다. 셋째, 레드팀 시험에 사용한 지침, 프로세스, 통계적 방법론 및 불확실성에 대해 철저히 설명한다. 이러한 투명성의 확보를 통해 공동체 차원에서 함께 협력하여 언어 모델의 레드팀 시험을 위한 공유된 규범, 실천 방식 및 기술 표준을 수립하는 데 속도를 내기를 기대한다.