
초록
이 논문은 문장 임베딩 분야에서 최신 기술 수준을 크게 향상시킨 간단한 대조 학습 프레임워크인 SimCSE를 제안한다. 먼저, 표준 드롭아웃을 유일한 노이즈로 사용하는 비지도 학습 방식을 설명한다. 이 방식은 입력 문장을 대상으로 대조 학습 목표 하에서 자기 자신을 예측하는 방식으로 작동한다. 이 간단한 방법은 놀랄 만큼 효과적이며, 이전의 지도 학습 기반 방법과 비슷한 성능을 보였다. 우리는 드롭아웃이 최소한의 데이터 증강 기능을 수행하며, 드롭아웃을 제거할 경우 표현의 붕괴가 발생함을 발견했다. 이후, 지도 학습 기반 접근법을 제안한다. 이 방법은 자연어 추론(Natural Language Inference, NLI) 데이터셋에서 얻은 어노테이션된 쌍을 활용하여, ‘함의(entailment)’ 쌍을 긍정 샘플로, ‘모순(contradiction)’ 쌍을 하드 음성 샘플로 사용하여 대조 학습 프레임워크에 통합한다. SimCSE는 표준 의미적 텍스트 유사도(Semantic Textual Similarity, STS) 태스크에서 평가되었으며, BERT base 기반의 비지도 및 지도 학습 모델은 각각 평균 76.3%, 81.6%의 스피어만 상관 계수를 기록하여, 이전 최고 성능 대비 각각 4.2%, 2.2% 향상된 성과를 보였다. 또한 이론적·실증적으로 대조 학습 목표가 사전 학습된 임베딩의 비균일한 공간 구조를 더 균일하게 정규화하며, 지도 신호가 제공될 경우 긍정 쌍 간의 정렬을 더욱 효과적으로 수행함을 입증하였다.