7일 전

TSDAE: 비지도 문장 임베딩 학습을 위한 Transformer 기반 순차적 노이즈 제거 오토인코더 사용

Kexin Wang, Nils Reimers, Iryna Gurevych
TSDAE: 비지도 문장 임베딩 학습을 위한 Transformer 기반 순차적 노이즈 제거 오토인코더 사용
초록

문장 임베딩 학습은 일반적으로 대량의 레이블 데이터를 필요로 한다. 그러나 대부분의 작업과 도메인에서는 레이블 데이터가 흔하지 않으며, 이를 생성하는 데 비용이 매우 크다. 본 연구에서는 사전 훈련된 트랜스포머와 순차적 노이즈 제거 오토인코더(Sequential Denoising Auto-Encoder, TSDAE)를 기반으로 한 새로운 최첨단 비지도 학습 방법을 제안한다. 이 방법은 기존 접근법보다 최대 6.4점 높은 성능을 달성하며, 도메인 내 지도 학습 방법의 성능의 최대 93.1%까지 도달할 수 있다. 또한 TSDAE가 문장 임베딩에 있어 강력한 도메인 적응 및 사전 훈련 방법임을 입증하며, 마스크 언어 모델(Masked Language Model)과 같은 다른 접근법보다 뚜렷한 성능 우위를 보였다.이전 연구들의 주요한 한계는 평가 범위가 좁다는 점이다. 대부분의 연구는 도메인 지식이 요구되지 않는 단일 작업인 의미적 텍스트 유사도(Semantic Textual Similarity, STS) 작업에만 주로 평가를 수행한다. 따라서 제안된 방법들이 다른 도메인과 작업으로 일반화되는지 여부는 명확하지 않다. 본 연구는 이러한 공백을 메우기 위해, 다양한 도메인에서 나온 네 가지 서로 다른 데이터셋을 활용하여 TSDAE 및 최근의 다른 접근법들을 종합적으로 평가하였다.

TSDAE: 비지도 문장 임베딩 학습을 위한 Transformer 기반 순차적 노이즈 제거 오토인코더 사용 | 최신 연구 논문 | HyperAI초신경