
다양한 시퀀스 생성은 질문 생성이나 요약과 같이 소스 시퀀스와 타겟 시퀀스 간에 의미적으로 일대다 관계를 보이는 여러 자연어 처리(NLP) 응용 분야에서 매우 중요하다. 본 연구에서는 기존의 인코더-디코더 모델을 감싸고 안내하는 일반적인 플러그 앤 플레이 모듈(이하 SELECTOR)을 사용하여 생성 과정과 다양성 확보 과정을 명시적으로 분리하는 방법을 제안한다. 다양성 확보 단계에서는 전문가의 혼합(Mixture of Experts)을 활용해 소스 시퀀스에 대해 다양한 이진 마스크(binary mask)를 샘플링함으로써 다양한 콘텐츠를 선택한다. 생성 단계에서는 각각 선택된 소스 시퀀스 콘텐츠를 기반으로 표준 인코더-디코더 모델을 사용한다. 이진 마스크의 샘플링 과정이 미분 불가능하고, 이진 마스크에 대한 지도 레이블이 없기 때문에, 실제 마스크에 대한 대체 지도 신호(proxy for ground truth mask)를 활용하고, 확률적 하드-EM(Stochastic Hard-EM) 기법을 도입하여 학습을 수행한다. 질문 생성(SQuAD) 및 추상적 요약(CNN-DM) 실험에서 본 방법은 정확도, 다양성, 학습 효율성 측면에서 두드러진 성능 향상을 보였으며, 두 데이터셋 모두에서 최신 기술(SOTA) 수준의 top-1 정확도를 달성하고, top-5 정확도는 6% 향상되었으며, 기존 최신 모델 대비 학습 속도는 3.7배 빠르게 구현되었다. 본 연구의 코드는 공개되어 있으며, 다음 URL에서 확인할 수 있다: https://github.com/clovaai/FocusSeq2Seq.