2ヶ月前
音声抽出のための代替アプローチ
Pham, The Hieu ; Nguyen, Phuong Thanh Tran ; Nguyen, Xuan Tho ; Nguyen, Tan Dat ; Nguyen, Duc Dung

要約
音響手がかりに基づく対象話者抽出(Target Speaker Extraction: TSE)に関する研究は、主に混合音声と基準音声のモデリングに焦点を当て、大規模なデータセットの利用可能性により英語での高い性能を達成してきました。しかし、言語を超えた人的音声の一貫性のある特性には十分な注意が払われてきませんでした。このギャップを埋めるために、微調整なしでTSEモデルを一言語から他の言語へ転送する課題に対処する代替モデルを提案します。本研究では、話者の音響特徴に基づいて特定の周波数帯域を変更できるゲーティング機構を提案しました。このモデルはクリーンな英語音声に対してSI-SDR 17.3544、Wham!ノイズが混ざったクリーンな音声に対してSI-SDR 13.2032を達成し、異なる言語への適応能力において他のすべてのモデルを上回っています。