HyperAIHyperAI

Command Palette

Search for a command to run...

SpeechNAS: 大規模話者認証における遅延と精度のより良いトレードオフを目指して

Wentao Zhu Tianlong Kong Shun Lu Jixiang Li Dawei Zhang Feng Deng Xiaorui Wang Sen Yang Ji Liu

概要

最近、x-ベクトルは話者認証において成功し、人気のある手法となっています。この手法では、時間遅延ニューラルネットワーク(TDNN)と統計プーリングを用いて、可変長の発話から話者特徴を抽出する埋め込みを生成します。x-ベクトルの改良は活発な研究領域であり、x-ベクトルに基づいて拡張TDNN(E-TDNN)、因子分解TDNN(F-TDNN)、および密集接続TDNN(D-TDNN)などの大規模なニューラルネットワークが巧妙に設計されています。本研究では、ニューラルアーキテクチャサーチ(NAS)を用いてTDNNベースの探索空間から最適なアーキテクチャを特定することを目指しています。これをSpeechNASと名付けました。近年の話者認識における進歩、例えば高次統計プーリング、マルチブランチメカニズム、D-TDNN、および最小超球エネルギー(MHE)を持つ角度追加マージンソフトマックス(AAM)損失などを活用して、SpeechNASはVoxCeleb1という大規模なテキスト非依存話者認識データセット上で5つの異なるパラメータ数とGFLOPsを持つネットワークアーキテクチャ(SpeechNAS-1からSpeechNAS-5まで)を自動的に発見しました。我々が導出した最良のニューラルネットワークは、VoxCeleb1の標準テストセットで等価誤差率(EER)1.02%を達成しており、これにより以前のTDNNベースの最先端手法よりも大幅に優れた性能を示しています。コードと学習済み重みは https://github.com/wentaozhu/speechnas.git で公開されています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています