8ヶ月前

音声および音声処理

畳み込みニューラルネットワーク

ディープラーニング

アプローチ／フレームワーク

オーディオ

Wentao Zhu Tianlong Kong Shun Lu Jixiang Li Dawei Zhang Feng Deng Xiaorui Wang Sen Yang Ji Liu

概要

最近、x-ベクトルは話者認証において成功し、人気のある手法となっています。この手法では、時間遅延ニューラルネットワーク（TDNN）と統計プーリングを用いて、可変長の発話から話者特徴を抽出する埋め込みを生成します。x-ベクトルの改良は活発な研究領域であり、x-ベクトルに基づいて拡張TDNN（E-TDNN）、因子分解TDNN（F-TDNN）、および密集接続TDNN（D-TDNN）などの大規模なニューラルネットワークが巧妙に設計されています。本研究では、ニューラルアーキテクチャサーチ（NAS）を用いてTDNNベースの探索空間から最適なアーキテクチャを特定することを目指しています。これをSpeechNASと名付けました。近年の話者認識における進歩、例えば高次統計プーリング、マルチブランチメカニズム、D-TDNN、および最小超球エネルギー（MHE）を持つ角度追加マージンソフトマックス（AAM）損失などを活用して、SpeechNASはVoxCeleb1という大規模なテキスト非依存話者認識データセット上で5つの異なるパラメータ数とGFLOPsを持つネットワークアーキテクチャ（SpeechNAS-1からSpeechNAS-5まで）を自動的に発見しました。我々が導出した最良のニューラルネットワークは、VoxCeleb1の標準テストセットで等価誤差率（EER）1.02%を達成しており、これにより以前のTDNNベースの最先端手法よりも大幅に優れた性能を示しています。コードと学習済み重みは https://github.com/wentaozhu/speechnas.git で公開されています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

音声および音声処理

畳み込みニューラルネットワーク

ディープラーニング

アプローチ／フレームワーク

オーディオ

Wentao Zhu Tianlong Kong Shun Lu Jixiang Li Dawei Zhang Feng Deng Xiaorui Wang Sen Yang Ji Liu

概要

最近、x-ベクトルは話者認証において成功し、人気のある手法となっています。この手法では、時間遅延ニューラルネットワーク（TDNN）と統計プーリングを用いて、可変長の発話から話者特徴を抽出する埋め込みを生成します。x-ベクトルの改良は活発な研究領域であり、x-ベクトルに基づいて拡張TDNN（E-TDNN）、因子分解TDNN（F-TDNN）、および密集接続TDNN（D-TDNN）などの大規模なニューラルネットワークが巧妙に設計されています。本研究では、ニューラルアーキテクチャサーチ（NAS）を用いてTDNNベースの探索空間から最適なアーキテクチャを特定することを目指しています。これをSpeechNASと名付けました。近年の話者認識における進歩、例えば高次統計プーリング、マルチブランチメカニズム、D-TDNN、および最小超球エネルギー（MHE）を持つ角度追加マージンソフトマックス（AAM）損失などを活用して、SpeechNASはVoxCeleb1という大規模なテキスト非依存話者認識データセット上で5つの異なるパラメータ数とGFLOPsを持つネットワークアーキテクチャ（SpeechNAS-1からSpeechNAS-5まで）を自動的に発見しました。我々が導出した最良のニューラルネットワークは、VoxCeleb1の標準テストセットで等価誤差率（EER）1.02%を達成しており、これにより以前のTDNNベースの最先端手法よりも大幅に優れた性能を示しています。コードと学習済み重みは https://github.com/wentaozhu/speechnas.git で公開されています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

SpeechNAS: 大規模話者認証における遅延と精度のより良いトレードオフを目指して | 記事 | HyperAI超神経