엔드투엔드 구두 언어 이해를 위한 전이 학습 탐색

알렉사, 시리, 구글 어시스턴트와 같은 음성 보조 도구는 일반적으로 두 단계로 구성된 말하기 언어 이해 파이프라인을 사용한다. 먼저, 사용자의 음성을 처리하여 텍스트로 변환하는 자동 음성 인식(ASR) 모듈을 거치고, 이후 텍스트 변환 결과를 실행 가능한 가설로 매핑하는 자연어 이해(NLU) 모듈을 거친다. 반면, 음성 입력에서 직접 가설을 도출하는 엔드 투 엔드(E2E) 시스템은 더 매력적인 대안으로 여겨진다. 이러한 시스템은 크기가 작고, 처리 속도가 빠르며, 최적화가 더 잘 되어 있음이 입증되었다. 그러나 E2E 시스템은 막대한 양의 엔드 투 엔드 학습 데이터를 필요로 하며, 기존에 존재하는 ASR 및 NLU 학습 데이터를 활용하지 못한다는 단점도 있다.본 연구에서는 여러 음성-텍스트 작업(예: ASR, 즉 음성-텍스트 변환 및 SLU, 즉 음성-가설 매핑)과 텍스트-텍스트 작업(예: NLU, 즉 텍스트-가설 매핑)을 함께 학습할 수 있도록 설계된 E2E 시스템을 제안한다. 이를 ‘오디오-텍스트 올태스크(AT-AT) 모델’이라 명명하며, 개별 작업에 대해 독립적으로 학습된 E2E 모델보다 우수한 성능을 보임을 입증한다. 특히 제한된 데이터로 학습된 모델에서 이 성능 차이가 더욱 두드러진다. 이 결과는 내부 음악 데이터셋과 공개 데이터셋인 FluentSpeech 및 SNIPS Audio에서 확인되었으며, 각각에서 최신 기술 수준(SOTA)의 성능을 달성하였다. 또한 본 모델은 음성과 텍스트 입력 시퀀스를 모두 처리하고 타겟 시퀀스를 예측할 수 있기 때문에, 새로운 도메인의 음성 데이터 없이 텍스트-가설 데이터만으로 학습함으로써 제로샷 E2E SLU를 수행할 수 있다. 이 능력을 페이스북의 TOP 데이터셋을 활용해 평가한 결과, 제로샷 E2E 성능에서 새로운 벤치마크를 설정하였다. 앞으로 본 연구에서 수집한 TOP 데이터셋의 오디오 데이터를 공개하여 향후 연구에 기여할 예정이다.