2달 전

대규모 약한 감독을 통한 강건한 음성 인식

Radford, Alec ; Kim, Jong Wook ; Xu, Tao ; Brockman, Greg ; McLeavey, Christine ; Sutskever, Ilya

초록

우리는 인터넷상의 오디오 전사본을 단순히 예측하도록 훈련된 음성 처리 시스템의 능력을 연구합니다. 680,000시간의 다국어 및 다중 작업 감독으로 확장할 때, 결과 모델은 표준 벤치마크에서 잘 일반화되며 어떤 미세 조정도 필요하지 않은 제로샷 전이 설정에서 종종 이전 완전히 감독된 결과와 경쟁력이 있습니다. 인간과 비교할 때, 이 모델들은 정확성과 견고성을 추적하고 있습니다. 우리는 이러한 연구를 바탕으로 견고한 음성 처리에 대한 추가적인 작업을 지원하기 위해 모델과 추론 코드를 공개합니다.