17일 전

MediaSpeech: 다국어 ASR 벤치마크 및 데이터셋

Rostislav Kolobov, Olga Okhapkina, Olga Omelchishina, Andrey Platunov, Roman Bedyakin, Vyacheslav Moshkin, Dmitry Menshikov, Nikolay Mikhaylovskiy
MediaSpeech: 다국어 ASR 벤치마크 및 데이터셋
초록

자동 음성 인식(ASR) 시스템의 성능은 다양한 응용 분야에서 상이하게 나타난다는 점은 잘 알려져 있다. 동시에, 업체 및 연구 그룹들은 일반적으로 제한된 사용 사례나 단순한 도메인(예: 오디오북, TED 강연) 또는 사적 데이터셋에 대해 ASR 품질 결과를 보고한다. 이러한 격차를 보완하기 위해, 우리는 스페인어, 프랑스어, 터키어, 아랍어 4개 언어를 대상으로 한 10시간 규모의 오픈소스 ASR 시스템 평가 데이터셋인 NTR MediaSpeech를 제공한다. 이 데이터셋은 각 언어의 매체 기관 공식 유튜브 채널에서 수집되었으며, 수동으로 전사되었다. 우리는 해당 데이터셋의 WER(Words Error Rate)가 5% 이하일 것으로 추정한다. 우리는 상용 및 무료로 이용 가능한 여러 ASR 시스템을 벤치마킹하여 성능 결과를 제공하였으며, 각 언어에 대해 베이스라인 QuartzNet 모델도 오픈소스로 공개한다.

MediaSpeech: 다국어 ASR 벤치마크 및 데이터셋 | 최신 연구 논문 | HyperAI초신경