HyperAIHyperAI

Command Palette

Search for a command to run...

FullSubNet:リアルタイム単一チャネル音声強調のためのフルバンドおよびサブバンド融合モデル

Xiang Hao Xiangdong Su Radu Horaud Xiaofei Li

概要

本稿では、単一チャネルのリアルタイム音声増強を目的として、全帯域およびサブバンドを統合するモデルであるFullSubNetを提案する。全帯域モデルとは、全帯域の雑音スペクトル特徴を入力とし、全帯域の音声ターゲットを出力するモデルを指す。一方、サブバンドモデルは各周波数帯域を独立して処理し、入力は特定の周波数とその周辺の複数の周波数(コンテキスト周波数)から構成され、出力は対応する周波数におけるクリーン音声ターゲットの予測値となる。これらの2種類のモデルはそれぞれ特徴が異なる。全帯域モデルは、スペクトル全体の文脈や長距離の帯域間依存関係を捉えることができるが、信号の定常性のモデリングや局所的なスペクトルパターンへの注目能力に欠ける。一方、サブバンドモデルはその逆で、局所的なスペクトル構造に敏感であるが、全体的な文脈把握が困難である。本研究で提案するFullSubNetでは、純粋な全帯域モデルと純粋なサブバンドモデルを直列に接続し、実用的な共同学習(joint training)により、両モデルの利点を統合する手法を採用している。本手法の有効性を検証するため、DNS Challenge(INTERSPEECH 2020)データセットを用いた実験を行った。実験結果から、全帯域情報とサブバンド情報は互いに補完的であり、FullSubNetがこれらを効果的に統合できることを確認した。さらに、本手法の性能は、DNS Challenge(INTERSPEECH 2020)でトップランクを記録した手法を上回ることが明らかになった。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています