18일 전

대조 학습을 이용한 언어 모델 임베딩에 관계 구조 도입

Christos Theodoropoulos, James Henderson, Andrei C. Coman, Marie-Francine Moens
대조 학습을 이용한 언어 모델 임베딩에 관계 구조 도입
초록

언어 모델 텍스트 임베딩은 자연어 처리(NLP) 연구에 혁명을 가져왔지만, 텍스트 내 개체 간의 관계와 같은 고차원적 의미 정보를 포착하는 능력은 여전히 제한적이다. 본 논문에서는 문장 임베딩이 그래프 구조 내 관계를 인코딩할 수 있도록 학습하는 새로운 대조 학습 프레임워크를 제안한다. 주어진 문장(비구조화 텍스트)과 그에 대응하는 그래프를 기반으로, CharacterBERT(El Boukkouri 등, 2020) 모델을 통해 얻은 문장의 토큰 수준 표현에 대해 대조 학습을 적용하여 관계와 관련된 구조를 강제한다. 이를 통해 얻어진 관계 인지 문장 임베딩은 단순한 KNN 분류기만을 사용하여 관계 추출 작업에서 최신 기준(SOTA) 성능을 달성하며, 제안한 방법의 성공성을 입증한다. t-SNE 분석을 통한 추가 시각화를 통해 제안한 학습된 표현 공간이 기존 벤치마크 대비 효과적임을 확인할 수 있다. 더불어, 대조 학습 목표를 다시 활용하여 명명된 개체 인식(NER)을 위한 별도의 표현 공간을 학습할 수 있음을 보이며, 이를 통해 개체-관계 작업에서 두 표현 공간을 성공적으로 통합하는 방법도 제시한다.