17일 전
SpeechBERT: 엔드투엔드 구두 질문 응답을 위한 음성과 텍스트의 공동 학습 언어 모델
Yung-Sung Chuang, Chi-Liang Liu, Hung-Yi Lee, Lin-shan Lee

초록
최근 다양한 말하기 언어 이해 작업을 위한 엔드투엔드 모델들이 탐구되어 왔지만, 본 논문은 아마도 엔드투엔드 말하기 질문 응답(SQA)이라는 매우 도전적인 과제에 도전한 최초의 사례일 것이다. 다양한 텍스트 처리 작업에서 매우 성공적인 BERT 모델을 참고하여, 본 연구에서는 음성과 텍스트를 함께 학습하는 SpeechBERT 모델을 제안한다. 이 모델은 ASR 오류가 답변 구간에 포함된 데이터셋에서, 순차적으로 ASR를 적용한 후 텍스트 질문 응답(TQA) 모델을 사용하는 기존의 접근 방식을 능가하였다. 그 이유는 엔드투엔드 모델이 ASR가 오류를 발생시키기 전에 음성 데이터로부터 정보를 추출할 수 있음을 보여주었기 때문이다. 제안된 엔드투엔드 모델을 순차 아키텍처와 앙상블한 경우, 더욱 우수한 성능이 달성되었다. 또한 엔드투엔드 SQA의 잠재력 외에도, SpeechBERT는 BERT가 다양한 텍스트 처리 작업에 활용되는 것과 마찬가지로, 다른 많은 말하기 언어 이해 작업에도 활용될 수 있다.