17일 전
말하는 언어 이해를 위한 자동 음성 인식이 여전히 필요한가?
Lasse Borgholt, Jakob Drachmann Havtorn, Mostafa Abdou, Joakim Edin, Lars Maaløe, Anders Søgaard, Christian Igel

초록
말하기 언어 이해(SLU) 작업은 일반적으로 자동 음성 인식(ASR)을 통해 발화를 음성에서 텍스트로 변환한 후, 그 결과를 텍스트 기반 모델에 입력하는 방식으로 해결된다. 최근 음성 데이터에 대한 자기지도 표현 학습의 발전은 주로 ASR 구성 요소의 향상에 집중되어 왔다. 본 연구에서는 음성에 대한 표현 학습이 SLU 작업에서 ASR을 대체할 정도로 충분히 성숙했는지 여부를 탐구한다. 우리는 wav2vec 2.0에서 학습한 음성 특징, 최첨단 ASR 출력 텍스트, 그리고 참값 텍스트를 새로운 음성 기반 명명된 실체 인식(task), 실제 응급 전화에서의 심정지 탐지 task, 그리고 기존의 두 가지 SLU 벤치마크에 입력으로 사용하여 비교하였다. 그 결과, 세 가지 분류 작업에서 학습된 음성 특징이 ASR 출력 텍스트보다 우수한 성능을 보임을 확인하였다. 그러나 기계 번역 작업에서는 여전히 ASR 출력 텍스트가 더 나은 선택임을 확인하였다. 본 연구에서는 wav2vec 2.0 표현이 OOV(사전에 없는 단어, out-of-vocabulary words)에 대해 내재적으로 강건하다는 점이 향상된 성능의 핵심 요인임을 강조한다.