16일 전

HONEST: 언어 모델에서 해로운 문장 완성 측정하기

{Dirk Hovy, Federico Bianchi, Debora Nozza}
HONEST: 언어 모델에서 해로운 문장 완성 측정하기
초록

언어 모델은 자연어 처리(NLP) 분야에서 혁명을 일으켰다. 그러나 이러한 언어 모델은 텍스트 생성 과정에서 해로운 고정관념을 포착하고 확산시키는 경향이 있다. 우리의 연구 결과에 따르면, 언어 모델이 문장을 완성할 때 4.3%의 비율로 해로운 단어를 사용한다. 이러한 사례는 무작위가 아니라 언어와 성별에 따라 특정한 패턴을 따르는 것으로 나타났다. 우리는 언어 모델 내에서 해로운 문장 완성 정도를 측정하기 위한 지표(HONEST)를 제안한다. 이 지표는 6개 언어에 대해 체계적인 템플릿 기반 및 어휘 기반 편향 평가 방법론을 활용한다. 연구 결과는 이러한 모델이 성 역할에 대한 사회적으로 뿌리 깊은 고정관념을 반복하고 악화시킨다는 점을 시사한다. 특히, 대상이 여성일 경우 문장 완성에서 성적 방종을 암시하는 경우가 9%에 달하며, 남성일 경우 동성애를 암시하는 경우는 4%에 이른다. 이러한 결과는 이러한 모델이 실사용 환경에서의 적용에 대해 심각한 질문을 제기한다.

HONEST: 언어 모델에서 해로운 문장 완성 측정하기 | 최신 연구 논문 | HyperAI초신경