2달 전

RWTH ASR 시스템의 LibriSpeech에 대한 비교: 하이브리드 vs 어텐션 -- 데이터 증강 없이

Christoph Lüscher; Eugen Beck; Kazuki Irie; Markus Kitza; Wilfried Michel; Albert Zeyer; Ralf Schlüter; Hermann Ney
RWTH ASR 시스템의 LibriSpeech에 대한 비교: 하이브리드 vs 어텐션 -- 데이터 증강 없이
초록

우리는 LibriSpeech 작업을 위해 표준 하이브리드 DNN/HMM 아키텍처와 어텐션 기반 인코더-디코더 설계를 사용한 최신 자동 음성 인식(ASR) 시스템을 제시합니다. 두 시스템 아키텍처에 대한 모델 설계, 사전 학습 방안, 학습 일정 및 최적화 접근법 등 시스템 개발의 상세한 설명을 제공합니다. 하이브리드 DNN/HMM와 어텐션 기반 시스템 모두 양방향 LSTM을 음성 모델링/인코딩에 사용합니다. 언어 모델링에는 LSTM과 Transformer 기반 아키텍처를 모두 사용합니다. 모든 시스템은 RWTH의 오픈 소스 도구 키트인 RASR과 RETURNN을 사용하여 구축되었습니다. 저자들의 최선의 지식으로, 전체 LibriSpeech 학습 세트에서 학습할 때 얻은 결과는 현재까지 발표된 결과 중 가장 우수하며, 하이브리드 DNN/HMM와 어텐션 기반 시스템 모두 해당됩니다. 우리의 단일 하이브리드 시스템은 이전에 8개의 단일 시스템을 결합하여 얻은 결과보다도 우수합니다. 우리의 비교 실험에서는 LibriSpeech 960시간 작업에서 하이브리드 DNN/HMM 시스템이 청정 테스트 세트에서는 단어 오류율 측면에서 어텐션 기반 시스템보다 15% 상대적으로 우수하고, 다른 테스트 세트에서는 40% 상대적으로 우수함을 보여주었습니다. 또한, LibriSpeech 학습 코퍼스의 축소된 100시간 부분 집합에 대한 실험에서는 하이브리드 DNN/HMM와 어텐션 기반 아키텍처 간의 차이가 더욱 두드러졌습니다.

RWTH ASR 시스템의 LibriSpeech에 대한 비교: 하이브리드 vs 어텐션 -- 데이터 증강 없이 | 최신 연구 논문 | HyperAI초신경