2달 전

영어 대화형 전화 통화 음성 인식: 인간과 기계에 의한

George Saon; Gakuto Kurata; Tom Sercu; Kartik Audhkhasi; Samuel Thomas; Dimitrios Dimitriadis; Xiaodong Cui; Bhuvana Ramabhadran; Michael Picheny; Lynn-Li Lim; Bergul Roomi; Phil Hall
영어 대화형 전화 통화 음성 인식: 인간과 기계에 의한
초록

인간 간 대화의 정확한 인식은 가장 어려운 음성 인식 과제 중 하나입니다. 지난 몇 년 동안 딥 러닝의 발전으로 대표적인 스위치보드(Switchboard) 대화 코퍼스에서 주요 음성 인식 개선이 이루어졌습니다. 불과 몇 년 전까지만 해도 14%였던 단어 오류율이 8.0%로, 그 다음 6.6%로, 그리고 최근에는 5.8%로 낮아졌으며, 이제 인간 수준의 성능에 근접했다고 믿어지고 있습니다. 이는 두 가지 문제를 제기합니다 - 인간의 성능은 무엇이며, 우리는 얼마나 더 낮은 음성 인식 오류율을 달성할 수 있을까요? 마이크로소프트(Microsoft)의 최근 논문에서는 이미 인간 수준의 성능을 달성했음을 제시하고 있습니다. 이 주장의 검증을 위해 우리는 두 개의 대화 과제에서 독립적으로 인간 성능 측정을 수행하였고, 인간 성능이 이전에 보고된 것보다 훨씬 우수할 수 있다는 것을 발견하였습니다. 이는 연구 커뮤니티에게 더욱 어려운 목표를 제시하게 되었습니다. 또한, 이 영역에서 우리의 노력에 대해 보고하며, 우리 자체의 영어 대화 전화 LVCSR 시스템에서 스위치보드/콜홈(CallHome) 하위 집합에 대한 Hub5 2000 평가에서 단어 오류율을 5.5%/10.3%까지 낮추는 일련의 음향 및 언어 모델링 기술을 소개합니다. 이는 적어도 본 논문 작성 시점에서는 새로운 성능 기록(단, 우리가 측정한 인간 성능에는 미치지 못함!)입니다.음향 모델링 측면에서는 세 가지 모델의 점수 융합을 사용합니다: 첫 번째는 여러 특징 입력을 가진 LSTM, 두 번째는 화자 적대적 다중 작업 학습(speaker-adversarial multi-task learning)으로 훈련된 LSTM, 세 번째는 시간 확장(time-dilated) 합성곱 계층을 가진 25개 합성곱 계층으로 구성된 잔차 네트워크(ResNet)입니다. 언어 모델링 측면에서는 단어와 문자 LSTMs 및 합성곱 WaveNet 스타일 언어 모델들을 사용합니다.

영어 대화형 전화 통화 음성 인식: 인간과 기계에 의한 | 최신 연구 논문 | HyperAI초신경