
초록
세멘틱 타이핑(Semantic typing)은 텍스트 내에서 관심 있는 토큰이나 스팬을 관계, 엔티티 유형, 이벤트 유형 등의 세멘틱 카테고리로 분류하는 것을 목표로 한다. 추론된 세멘틱 카테고리 레이블은 기계가 텍스트의 구성 요소를 어떻게 이해하는지를 의미 있는 방식으로 해석한다. 본 논문에서는 입력과 레이블을 공동의 세멘틱 임베딩 공간에 투영함으로써 레이블의 세멘틱 의미를 포착하는 통합적 프레임워크인 UniST를 제안한다. 다양한 어휘적 및 관계적 세멘틱 타이핑 작업을 통합된 작업으로 정의하기 위해, 작업 설명을 입력과 함께 공동으로 인코딩하는 방식을 도입함으로써 UniST가 특화된 모델 구성 요소 없이도 다양한 작업에 적응할 수 있도록 하였다. UniST는 마진 랭킹 손실(margin ranking loss)을 최적화하여 입력과 레이블 간의 세멘틱 유사도가 임베딩 유사도를 통해 반영되도록 한다. 실험 결과, UniST는 엔티티 타이핑, 관계 분류, 이벤트 타이핑 세 가지 세멘틱 타이핑 작업에서 우수한 성능을 달성함을 입증하였다. 동시에, 레이블의 세멘틱 지식을 효과적으로 전이하여 드물게 나타나거나 전혀 경험하지 못한 유형을 추론하는 데 있어 일반화 능력을 크게 향상시켰다. 또한, 여러 세멘틱 타이핑 작업을 통합된 프레임워크 내에서 공동 학습할 수 있어, 전용 단일 작업 모델과 비슷한 성능을 제공하면서도 더 뛰어난 전이 능력을 갖춘 단일 컴팩트한 다중 작업 모델을 구현할 수 있다.