2달 전

Deep Speech 2: 영어와 만다린어의 엔드투엔드 음성 인식

Dario Amodei; Rishita Anubhai; Eric Battenberg; Carl Case; Jared Casper; Bryan Catanzaro; Jingdong Chen; Mike Chrzanowski; Adam Coates; Greg Diamos; Erich Elsen; Jesse Engel; Linxi Fan; Christopher Fougner; Tony Han; Awni Hannun; Billy Jun; Patrick LeGresley; Libby Lin; Sharan Narang; Andrew Ng; Sherjil Ozair; Ryan Prenger; Jonathan Raiman; Sanjeev Satheesh; David Seetapun; Shubho Sengupta; Yi Wang; Zhiqian Wang; Chong Wang; Bo Xiao; Dani Yogatama; Jun Zhan; Zhenyao Zhu

논문 세부 정보 보기

초록

우리는 단일 연결형 딥 러닝 접근법이 영어나 만다린 중국어와 같은 매우 다른 두 언어의 음성을 인식하는 데 사용될 수 있음을 보여줍니다. 이 방법은 신경망으로 수작업으로 설계된 전체 파이프라인을 대체하기 때문에, 시끄러운 환경, 억양 및 다양한 언어를 포함한 다양한 유형의 음성을 처리할 수 있게 합니다. 우리의 접근 방식에서 핵심적인 부분은 HPC(High-Performance Computing) 기술을 적용하여 이전 시스템보다 7배 빠른 속도를 달성한 것입니다. 이러한 효율성 덕분에, 이전에는 몇 주가 걸렸던 실험이 이제는 며칠 안에 완료됩니다. 이로 인해 우수한 아키텍처와 알고리즘을 더 빠르게 식별할 수 있는 반복 과정을 수행할 수 있습니다. 결과적으로, 표준 데이터셋에서 벤치마킹했을 때 우리의 시스템은 여러 경우에서 인간 작업자의 전사와 경쟁력을 갖추고 있습니다. 마지막으로, 데이터 센터에서 GPU를 사용하는 배치 디스패치(Batch Dispatch) 기술을 활용하여, 대규모 사용자에게 서비스를 제공할 때 낮은 지연 시간을 제공하면서 저렴하게 온라인 환경에 배포할 수 있음을 보여주었습니다.