8일 전

혼합 표현을 활용한 시퀀스 생성

{Lijun Wu Shufang Xie Yingce Xia Fan Yang Tao Qin Jianhuang Lai Tie-Yan Liu}
초록

토큰화는 자연어 처리(NLP) 작업의 첫 번째 단계이며 신경망 기반 NLP 모델에서 중요한 역할을 한다. 바이트-페어 인코딩(BPE)과 같은 토큰화 방법은 큰 어휘량을 크게 줄이고, 훈련 데이터에 없는 단어(out-of-vocabulary, OOV)를 효과적으로 다룰 수 있어, 시퀀스 생성 작업에서 널리 사용되고 있으며 뛰어난 성능을 보여주고 있다. 다양한 토큰화 방법이 존재하지만, 가장 우수한 방법에 대한 공통된 기준은 아직 마련되지 않았다. 본 연구에서는 각각의 토큰화 방법이 지닌 고유한 특성과 장점을 활용하기 위해, 다양한 토큰화 방법에서 도출된 혼합 표현(mixed representations)을 시퀀스 생성 작업에 활용하는 새로운 접근법을 제안한다. 구체적으로, 혼합 표현을 통합할 수 있는 새로운 모델 아키텍처와, 서로 다른 토큰화 방법 간의 다양성을 효과적으로 활용하기 위한 공동 학습(co-teaching) 알고리즘을 도입하였다. 제안한 방법은 영어↔독일어, 영어↔루마니아어 등 총 6개 언어 쌍을 포함한 신경망 기반 기계 번역(NMT) 작업에서 뚜렷한 성능 향상을 달성하였으며, 개괄적 요약(abstract summarization) 작업에서도 유의미한 개선을 보였다.

혼합 표현을 활용한 시퀀스 생성 | 최신 연구 논문 | HyperAI초신경