7일 전
더 많은 Embeddings, 더 나은 Sequence Labeler?
Xinyu Wang, Yong Jiang, Nguyen Bach, Tao Wang, Zhongqiang Huang, Fei Huang, Kewei Tu

초록
최근 연구에서는 비문맥적 임베딩에 비해 시퀀스 레이블러의 정확도를 크게 향상시키는 문맥적 임베딩의 일족을 제안하고 있다. 그러나 다양한 설정에서 서로 다른 종류의 임베딩을 결합함으로써 더 나은 시퀀스 레이블러를 구축할 수 있는지에 대한 명확한 결론은 아직 존재하지 않는다. 본 논문에서는 18개의 데이터셋과 8개의 언어에서 3개의 작업에 대해 광범위한 실험을 수행하여 다양한 임베딩 결합 방식이 시퀀스 레이블링 정확도에 미치는 영향을 탐구하였으며, 다음과 같은 세 가지 관찰 결과를 도출하였다. (1) 풍부한 자원과 교차 도메인 설정에서는 더 많은 임베딩 변형을 결합할수록 정확도가 향상되며, 일부 저자원 설정에서도 동일한 경향을 보였다. (2) 극도로 저자원 설정에서는 문맥적 하위어 단위 임베딩을 문맥적 문자 임베딩과 결합하는 것이 정확도를 저하시킨다. (3) (1)의 결론을 바탕으로, 유사한 문맥적 임베딩을 추가로 결합하는 것은 더 이상 정확도 향상에 기여하지 않는다. 이러한 결론이 다양한 설정에서 더 강력한 시퀀스 레이블러를 구축하는 데 도움이 되기를 기대한다.