17日前

Libri-Light:限られた教師あり情報または教師なし情報におけるASRのベンチマーク

Jacob Kahn, Morgane Rivière, Weiyi Zheng, Evgeny Kharitonov, Qiantong Xu, Pierre-Emmanuel Mazaré, Julien Karadayi, Vitaliy Liptchinsky, Ronan Collobert, Christian Fuegen, Tatiana Likhomanenko, Gabriel Synnaeve, Armand Joulin, Abdelrahman Mohamed, Emmanuel Dupoux
Libri-Light:限られた教師あり情報または教師なし情報におけるASRのベンチマーク
要約

我々は、限られたまたは全く教師なしの環境下で音声認識システムの学習に適した、新しい英語音声データセットを紹介する。このデータセットはLibriVoxプロジェクトのオープンソース音声図書から抽出されたものであり、60,000時間を超える音声データを含んでおり、現時点において知られている限り、最も規模が大きく自由に利用可能な音声コーパスである。音声データは音声活動検出(Voice Activity Detection)を用いてセグメント化されており、SNR(信号対雑音比)、話者ID、ジャンル情報が付与されている。さらに、以下の3つの設定において動作するベースラインシステムおよび評価指標を提供する:(1)ゼロリソース/教師なし設定(ABX)、(2)準教師あり設定(PER、CER)、(3)遠隔教師あり設定(WER)。設定(2)および(3)では、音声データと対応するテキストリソース(10分から10時間程度)を限定的に使用する。設定(3)では、対応付けられていない大量のテキストを用いる。これらの設定は、標準的なLibriSpeech開発セットおよびテストセットを用いて評価され、教師ありの最先端手法と比較される。

Libri-Light:限られた教師あり情報または教師なし情報におけるASRのベンチマーク | 最新論文 | HyperAI超神経