6ヶ月前

音声および音声処理

マルチタスク学習

アプローチ／フレームワーク

オーディオ

Chang Zeng Xin Wang Erica Cooper Xiaoxiao Miao Junichi Yamagishi

概要

従来の話者識別システムでは、ペアワイズな類似度を測定するバックエンド技術として、確率的線形判別分析（PLDA）やコサイン類似度が広く用いられてきた。複数の登録音声をより効果的に活用するため、本研究では、テキスト非依存（TI）およびテキスト依存（TD）の両方の話者識別に適用可能な新しいアテンションバックエンドモデルを提案する。このモデルは、登録音声間の内部関係を学習するため、スケーリングドット自己アテンション（scaled-dot self-attention）とフィードフォワード自己アテンションネットワークをアーキテクチャとして採用している。提案モデルの有効性を検証するため、TDNNやResNetを含む複数の最先端話者エンコーダと組み合わせ、CNCelebおよびVoxCelebデータセット上で一連の実験を実施した。CNCelebデータセットにおける複数登録音声を用いた実験結果から、各話者エンコーダに対して、PLDAやコサイン類似度と比較して、本モデルがより低いEER（等誤り率）およびminDCFスコアを達成することが明らかになった。また、VoxCelebデータセットにおける実験結果から、単一登録音声ケースにおいても本モデルが有効に利用可能であることが示された。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

音声および音声処理

マルチタスク学習

アプローチ／フレームワーク

オーディオ

Chang Zeng Xin Wang Erica Cooper Xiaoxiao Miao Junichi Yamagishi

概要

従来の話者識別システムでは、ペアワイズな類似度を測定するバックエンド技術として、確率的線形判別分析（PLDA）やコサイン類似度が広く用いられてきた。複数の登録音声をより効果的に活用するため、本研究では、テキスト非依存（TI）およびテキスト依存（TD）の両方の話者識別に適用可能な新しいアテンションバックエンドモデルを提案する。このモデルは、登録音声間の内部関係を学習するため、スケーリングドット自己アテンション（scaled-dot self-attention）とフィードフォワード自己アテンションネットワークをアーキテクチャとして採用している。提案モデルの有効性を検証するため、TDNNやResNetを含む複数の最先端話者エンコーダと組み合わせ、CNCelebおよびVoxCelebデータセット上で一連の実験を実施した。CNCelebデータセットにおける複数登録音声を用いた実験結果から、各話者エンコーダに対して、PLDAやコサイン類似度と比較して、本モデルがより低いEER（等誤り率）およびminDCFスコアを達成することが明らかになった。また、VoxCelebデータセットにおける実験結果から、単一登録音声ケースにおいても本モデルが有効に利用可能であることが示された。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています