17日前

VoxPopuli:表現学習、準教師あり学習および解釈に向けた大規模マルチリンガル音声コーパス

Changhan Wang, Morgane Rivière, Ann Lee, Anne Wu, Chaitanya Talnikar, Daniel Haziza, Mary Williamson, Juan Pino, Emmanuel Dupoux
VoxPopuli:表現学習、準教師あり学習および解釈に向けた大規模マルチリンガル音声コーパス
要約

VoxPopuli を紹介します。これは23言語で合計10万時間に及ぶラベルなし音声データを提供する大規模な多言語コーパスであり、無監督表現学習および半教師付き学習の分野において、これまでで最も規模の大きなオープンデータです。また、16言語で1,800時間の音声データに加え、それらの音声を5言語に翻訳した対応する口頭解釈データが合計5,100時間含まれています。本研究では、音声認識のベースラインを提示し、VoxPopuli のラベルなしデータが、困難なドメイン外(out-of-domain)設定下でも半教師付き学習において高い汎用性を示すことを検証しました。コーパスは、https://github.com/facebookresearch/voxpopuli にてオープンライセンスのもとで公開予定です。