
초록
언어 모델은 자연어 처리(NLP) 분야에서 혁명을 일으켰다. 그러나 이러한 언어 모델은 텍스트 생성 과정에서 해로운 고정관념을 포착하고 확산시키는 경향이 있다. 우리의 연구 결과에 따르면, 언어 모델이 문장을 완성할 때 4.3%의 비율로 해로운 단어를 사용한다. 이러한 사례는 무작위가 아니라 언어와 성별에 따라 특정한 패턴을 따르는 것으로 나타났다. 우리는 언어 모델 내에서 해로운 문장 완성 정도를 측정하기 위한 지표(HONEST)를 제안한다. 이 지표는 6개 언어에 대해 체계적인 템플릿 기반 및 어휘 기반 편향 평가 방법론을 활용한다. 연구 결과는 이러한 모델이 성 역할에 대한 사회적으로 뿌리 깊은 고정관념을 반복하고 악화시킨다는 점을 시사한다. 특히, 대상이 여성일 경우 문장 완성에서 성적 방종을 암시하는 경우가 9%에 달하며, 남성일 경우 동성애를 암시하는 경우는 4%에 이른다. 이러한 결과는 이러한 모델이 실사용 환경에서의 적용에 대해 심각한 질문을 제기한다.