8ヶ月前

概要

私たちは、単にインターネット上の大量の音声転写を予測するために訓練された音声処理システムの能力を研究しています。68万時間の多言語および多タスク監督にスケーリングすると、得られたモデルは標準的なベンチマークに対して良好な汎化性能を示し、ファインチューニングなしでゼロショット転移設定においてしばしば先行する完全監督結果と競合します。人間との比較では、これらのモデルは精度と堅牢性に近づいています。私たちは、より堅牢な音声処理に関する今後の研究の基盤となるよう、モデルと推論コードを公開します。

ソースPDF