9日前

BigSSL:自動音声認識における大規模半教師付き学習の最前線を探る

Yu Zhang, Daniel S. Park, Wei Han, James Qin, Anmol Gulati, Joel Shor, Aren Jansen, Yuanzhong Xu, Yanping Huang, Shibo Wang, Zongwei Zhou, Bo Li, Min Ma, William Chan, Jiahui Yu, Yongqiang Wang, Liangliang Cao, Khe Chai Sim, Bhuvana Ramabhadran, Tara N. Sainath, Françoise Beaufays, Zhifeng Chen, Quoc V. Le, Chung-Cheng Chiu, Ruoming Pang, Yonghui Wu
BigSSL:自動音声認識における大規模半教師付き学習の最前線を探る
要約

大規模で多様なラベルなし音声データ(約100万時間分)を用いて事前学習された巨大な自動音声認識(ASR)モデルを活用した多数の取り組みの結果を要約する。事前学習、自己学習(self-training)およびモデルサイズの拡大の組み合わせが、ラベル付きデータが数万時間に及ぶ極めて大規模なタスクに対しても、データ効率を著しく向上させることを明らかにした。特に、ラベル付きデータが34,000時間に及ぶASRタスクにおいて、80億パラメータの事前学習済みConformerモデルを微調整することで、学習データの3%のみで最先端(SoTA)性能に達し、全データを用いた場合ではさらにSoTAを大幅に上回る結果を得た。また、音声領域が多岐にわたる広範な下流タスク(データセットサイズが複数オーダーの違いを持つ)に対して、大規模な事前学習および自己学習モデルを用いることで普遍的な利点が得られることを報告する。これには、多くの公開ベンチマークにおいてSoTA性能を達成したことも含まれる。さらに、事前学習済みネットワークが学習した表現を活用することで、ASR以外のタスクにおいてもSoTAレベルの結果を達成した。