2ヶ月前

ATST: 教師-生徒変換器を用いた音声表現学習

Li, Xian ; Li, Xiaofei
ATST: 教師-生徒変換器を用いた音声表現学習
要約

自己監督学習(Self-supervised learning: SSL)は、大量のラベルなしデータから知識を学習し、その後、限られた数のラベル付きデータを使用して特定の問題にその知識を転移する手法です。SSLは様々な分野で有望な結果を達成しています。本研究では、セグメントレベルの一般的オーディオの自己監督学習(General Audio SSL)に関する問題を取り上げ、新しいトランスフォーマーに基づく教師-生徒型自己監督学習モデルであるATSTを提案します。最近登場した教師-生徒型ベースラインスキーム上にトランスフォーマーエンコーダーを開発することで、事前学習のモデリング能力が大幅に向上しました。さらに、トランスフォーマーの能力を十分に活用できる新しい正例ペア生成戦略も設計されました。広範囲な実験が行われ、提案されたモデルは几乎所有の下流タスクにおいて新たな最先端の結果を達成しています。

ATST: 教師-生徒変換器を用いた音声表現学習 | 最新論文 | HyperAI超神経