HyperAIHyperAI

Command Palette

Search for a command to run...

音声抽出のための代替アプローチ

Hieu Pham Phuong Thanh Tran Nguyen Xuan Tho Nguyen Tan Dat Nguyen Duc Dung Nguyen

概要

音響手がかりに基づく対象話者抽出(Target Speaker Extraction: TSE)に関する研究は、主に混合音声と基準音声のモデリングに焦点を当て、大規模なデータセットの利用可能性により英語での高い性能を達成してきました。しかし、言語を超えた人的音声の一貫性のある特性には十分な注意が払われてきませんでした。このギャップを埋めるために、微調整なしでTSEモデルを一言語から他の言語へ転送する課題に対処する代替モデルを提案します。本研究では、話者の音響特徴に基づいて特定の周波数帯域を変更できるゲーティング機構を提案しました。このモデルはクリーンな英語音声に対してSI-SDR 17.3544、Wham!ノイズが混ざったクリーンな音声に対してSI-SDR 13.2032を達成し、異なる言語への適応能力において他のすべてのモデルを上回っています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています