16일 전
스택드 앙상블을 이용한 태국어 단어 분리 모델의 도메인 적응
{Sarana Nutanong, Ekapol Chuangsuwanich, Raheem Sarwar, Wannaphong Phatthiyaphaibun, Peerat Limkonchotiwat}

초록
자연어 처리(NLP) 작업 중 많은 사례와 마찬가지로 태국어 단어 분할은 도메인에 따라 달라진다. 연구자들은 기존 모델을 새로운 도메인에 적응시키기 위해 전이 학습(transfer learning)을 주로 활용해 왔다. 그러나 이러한 접근 방식은 모델의 입력층과 출력층만 접근 가능한 경우, 즉 '블랙 박스(black boxes)'라고 알려진 상황에서는 적용이 불가능하다. 본 연구에서는 스택드 앙상블 학습(stacked-ensemble learning) 패러다임을 기반으로 한 필터링과 정제(filter-and-refine) 전략을 제안하여 이 블랙 박스 한계를 극복한다. 제안한 방법을 최신 기술 모델 및 전이 학습 기법과 비교하여 광범위한 실험을 수행한 결과, 제안하는 솔루션이 효과적인 도메인 적응 방법임을 입증하였으며, 전이 학습 기법과 유사한 성능을 보였다.