2달 전

Deep Speech: End-to-End 음성 인식의 확장

Awni Hannun; Carl Case; Jared Casper; Bryan Catanzaro; Greg Diamos; Erich Elsen; Ryan Prenger; Sanjeev Satheesh; Shubho Sengupta; Adam Coates; Andrew Y. Ng
Deep Speech: End-to-End 음성 인식의 확장
초록

우리는 엔드투엔드 딥 러닝을 사용하여 개발한 최신 음성 인식 시스템을 소개합니다. 우리의 아키텍처는 전통적인 음성 시스템보다 크게 단순화되어 있으며, 전통적인 시스템은 복잡하게 설계된 처리 파이프라인에 의존하기 때문에 소음 환경에서 성능이 저하되는 경향이 있습니다. 반면, 우리 시스템은 배경 소음, 공명 또는 발화자 변동성을 모델링하기 위한 수작업 설계 요소가 필요하지 않고, 이러한 효과에 견고한 함수를 직접 학습합니다. 우리는 음소 사전도 필요하지 않으며, 심지어 "음소"라는 개념조차 필요하지 않습니다. 우리의 접근 방식의 핵심은 여러 GPU를 사용하는 잘 최적화된 RNN 훈련 시스템과 함께 다양한 데이터를 효율적으로 얻을 수 있는 일련의 새로운 데이터 합성 기술입니다. 우리 시스템인 Deep Speech는 광범위하게 연구된 Switchboard Hub5'00에서 이전에 발표된 결과를 능가하며, 전체 테스트 세트에서 16.0%의 오류율을 달성했습니다. 또한 Deep Speech는 현재 널리 사용되고 있는 최첨단 상용 음성 인식 시스템보다 도전적인 소음 환경에서 더 우수한 성능을 보입니다.

Deep Speech: End-to-End 음성 인식의 확장 | 최신 연구 논문 | HyperAI초신경