Trans-Encoder: 자기 및 상호-편집을 통한 비지도 문장 쌍 모델링

자연어처리(NLP) 분야에서 두 시퀀스 간의 쌍별 비교(task)는 문장 유사도 측정 및 동의어 표현 식별 등 다양한 과제에 포함된다. 이러한 문장 쌍 과제에 주로 사용되는 두 가지 접근 방식은 이중 인코더(bi-encoder)와 크로스 인코더(cross-encoder)이다. 이중 인코더는 고정 차원의 문장 표현을 생성하며 계산 효율성이 높지만, 일반적으로 크로스 인코더에 비해 성능이 낮은 편이다. 반면 크로스 인코더는 주의 메커니즘(attention head)을 활용해 문장 간의 상호작용을 효과적으로 모델링하여 더 뛰어난 성능을 달성할 수 있으나, 과제에 맞는 미세조정(fine-tuning)이 필요하고 계산 비용이 상대적으로 높다. 본 논문에서는 이러한 두 학습 패러다임을 반복적이고 통합적인 프레임워크 내에서 결합하여, 향상된 이중 인코더와 크로스 인코더를 동시에 학습하는 완전히 비지도(unsupervised) 문장 표현 모델인 Trans-Encoder를 제안한다. 구체적으로, 사전 학습된 언어 모델(PLM)을 기반으로 비지도 이중 인코더로 변환한 후, 이중 인코더와 크로스 인코더의 학습 방식을 번갈아가며 반복한다. 각 반복 단계에서 하나의 학습 방식이 의사 레이블(pseudo-label)을 생성하고, 이를 다른 방식의 학습 신호로 활용한다. 또한, 복수의 사전 학습된 언어 모델(PLM)을 병렬로 적용하여 자기 교사(self-distillation) 접근을 확장하고, 각 모델의 의사 레이블 평균을 이용해 상호 교육(mutual-distillation)을 수행하는 방법을 제안한다. Trans-Encoder는 본 연구의 관점에서 세계 최초로 완전히 비지도로 작동하는 크로스 인코더를 구현하였으며, 문장 유사도 과제에서 최신 기준을 넘어선 비지도 이중 인코더 성능을 달성하였다. Trans-Encoder의 이중 인코더 및 크로스 인코더 구조는 Mirror-BERT와 SimCSE와 같은 최근 제안된 최고 수준의 비지도 문장 인코더보다 문장 유사도 벤치마크에서 최대 5%까지 성능이 뛰어나다.