2ヶ月前

SpeechNAS: 大規模話者認証における遅延と精度のより良いトレードオフを目指して

Wentao Zhu; Tianlong Kong; Shun Lu; Jixiang Li; Dawei Zhang; Feng Deng; Xiaorui Wang; Sen Yang; Ji Liu
SpeechNAS: 大規模話者認証における遅延と精度のより良いトレードオフを目指して
要約

最近、x-ベクトルは話者認証において成功し、人気のある手法となっています。この手法では、時間遅延ニューラルネットワーク(TDNN)と統計プーリングを用いて、可変長の発話から話者特徴を抽出する埋め込みを生成します。x-ベクトルの改良は活発な研究領域であり、x-ベクトルに基づいて拡張TDNN(E-TDNN)、因子分解TDNN(F-TDNN)、および密集接続TDNN(D-TDNN)などの大規模なニューラルネットワークが巧妙に設計されています。本研究では、ニューラルアーキテクチャサーチ(NAS)を用いてTDNNベースの探索空間から最適なアーキテクチャを特定することを目指しています。これをSpeechNASと名付けました。近年の話者認識における進歩、例えば高次統計プーリング、マルチブランチメカニズム、D-TDNN、および最小超球エネルギー(MHE)を持つ角度追加マージンソフトマックス(AAM)損失などを活用して、SpeechNASはVoxCeleb1という大規模なテキスト非依存話者認識データセット上で5つの異なるパラメータ数とGFLOPsを持つネットワークアーキテクチャ(SpeechNAS-1からSpeechNAS-5まで)を自動的に発見しました。我々が導出した最良のニューラルネットワークは、VoxCeleb1の標準テストセットで等価誤差率(EER)1.02%を達成しており、これにより以前のTDNNベースの最先端手法よりも大幅に優れた性能を示しています。コードと学習済み重みは https://github.com/wentaozhu/speechnas.git で公開されています。