
초록
현대의 대화형 에이전트는 인간이 소통하는 방식을 모방하도록 훈련된다. 사용자와 정서적 유대를 형성하기 위해서는 이러한 가상 에이전트가 사용자의 정서 상태를 인지해야 한다. 트랜스포머(Transformer)는 최근 시퀀스-투-시퀀스 학습 분야에서 최신 기술로, 발화-응답 쌍에서 얻은 단어 임베딩을 사용하여 인코더-디코더 모델을 훈련하는 방식이다. 본 논문에서는 사용자의 발화에 담긴 정서적 지수(Emotional Quotient)를 포착하기 위해 정서 인지 기능을 갖춘 트랜스포머 인코더를 제안한다. 이로써 인간과 유사한 공감 능력을 지닌 응답을 생성할 수 있다. 본 논문의 기여점은 다음과 같다. 1) 입력 발화를 기반으로 훈련된 정서 탐지 모듈이 초기 단계에서 사용자의 정서 상태를 판단한다. 2) 새로운 트랜스포머 인코더를 제안하며, 단어 임베딩에 정서 임베딩을 추가하고 정규화함으로써 입력 발화의 의미적 측면과 정서적 측면을 통합한다. 3) 인코더 및 디코더 스택은 최근 언어 모델링 분야에서 최신 기술로 평가받는 Transformer-XL 아키텍처에 기반한다. 기준 데이터셋인 Facebook AI의 공감 대화 데이터셋을 이용한 실험 결과, 제안 모델이 기존 방법 대비 더 높은 BLEU-4 점수를 기록함으로써 본 모델의 효과성을 입증하였다. 이제 정서 지능을 갖춘 가상 에이전트는 현실이 되었으며, 향후 근접한 미래에는 모든 인간-기계 인터페이스에 정서를 하나의 중요한 매개체로 포함하는 것이 예상된다.