16일 전

StereoSet: 사전 훈련된 언어 모델 내 편향성 측정

Moin Nadeem, Anna Bethke, Siva Reddy
StereoSet: 사전 훈련된 언어 모델 내 편향성 측정
초록

스테레오타입은 특정 집단에 대한 과도하게 일반화된 신념을 의미한다. 예를 들어, "아시아인은 수학을 잘한다" 또는 "아시아인은 나쁜 운전자다"와 같은 믿음이 여기에 해당한다. 이러한 신념(편견)은 대상 집단에 해로운 영향을 미친다는 점이 잘 알려져 있다. 사전 훈련된 언어 모델은 대규모 실제 세계 데이터를 기반으로 훈련되기 때문에, 이러한 스테레오타입적 편견을 내포하고 있다는 점이 이미 확인되었다. 이러한 모델이 초래하는 부정적인 영향을 평가하기 위해서는 모델 내부에 포함된 편견을 정량화하는 것이 중요하다. 기존의 편견 정량화 연구는 주로 인위적으로 구성된 소규모 문장 집합을 이용하여 사전 훈련된 언어 모델의 편견을 평가해왔다. 본 연구에서는 성별, 전공, 인종, 종교의 네 가지 영역에서 스테레오타입적 편견을 측정할 수 있도록, 영어로 구성된 대규모 자연어 데이터셋인 StereoSet을 제안한다. 제안된 데이터셋을 기반으로 BERT, GPT-2, RoBERTa, XLNet과 같은 대표적인 언어 모델들을 평가한 결과, 이들 모델이 강력한 스테레오타입적 편견을 보이고 있음을 확인하였다. 또한, 은닉된 테스트 세트를 활용하여 미래 언어 모델의 편견 수준을 지속적으로 추적할 수 있도록 랭킹을 제공하고 있으며, 이는 https://stereoset.mit.edu 에서 확인할 수 있다.

StereoSet: 사전 훈련된 언어 모델 내 편향성 측정 | 최신 연구 논문 | HyperAI초신경