8ヶ月前

音声および音声処理

アプローチ／フレームワーク

オーディオ

Duc-Tuan Truong Ruijie Tao Tuan Nguyen Hieu-Thi Luong Kong Aik Lee Eng Siong Chng

概要

最近の合成音声検出器において、Transformerモデルを活用したものは、畳み込みニューラルネットワーク（CNN）と比較して優れた性能を示しています。この改善は、Transformerモデル内のマルチヘッド自己注意機構（Multi-Head Self-Attention: MHSA）が各入力トークンの時間的な関係を学習する強力なモデリング能力に起因すると考えられます。しかし、合成音声のアーティファクトは周波数チャネルと時間セグメントの特定の領域に位置することが多く、MHSAはこの入力シーケンスの時間-チャネル依存性を無視しています。本研究では、MHSAの能力を向上させるために、時間-チャネルモデリング（Temporal-Channel Modeling: TCM）モジュールを提案しました。ASVspoof 2021での実験結果によると、追加パラメータがわずか0.03Mであるにもかかわらず、TCMモジュールは最新のシステムよりもEERで9.25%高い性能を達成しました。さらに、アブレーションスタディにより、時間情報とチャネル情報を両方利用することで合成音声検出に最大の改善がもたらされることが明らかになりました。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

音声および音声処理

アプローチ／フレームワーク

オーディオ

Duc-Tuan Truong Ruijie Tao Tuan Nguyen Hieu-Thi Luong Kong Aik Lee Eng Siong Chng

概要

最近の合成音声検出器において、Transformerモデルを活用したものは、畳み込みニューラルネットワーク（CNN）と比較して優れた性能を示しています。この改善は、Transformerモデル内のマルチヘッド自己注意機構（Multi-Head Self-Attention: MHSA）が各入力トークンの時間的な関係を学習する強力なモデリング能力に起因すると考えられます。しかし、合成音声のアーティファクトは周波数チャネルと時間セグメントの特定の領域に位置することが多く、MHSAはこの入力シーケンスの時間-チャネル依存性を無視しています。本研究では、MHSAの能力を向上させるために、時間-チャネルモデリング（Temporal-Channel Modeling: TCM）モジュールを提案しました。ASVspoof 2021での実験結果によると、追加パラメータがわずか0.03Mであるにもかかわらず、TCMモジュールは最新のシステムよりもEERで9.25%高い性能を達成しました。さらに、アブレーションスタディにより、時間情報とチャネル情報を両方利用することで合成音声検出に最大の改善がもたらされることが明らかになりました。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

時間チャネルモデリングを用いた多頭自己注意機構における合成音声検出 | 記事 | HyperAI超神経