6ヶ月前

概要

本稿では、単一チャネルのリアルタイム音声増強を目的として、全帯域およびサブバンドを統合するモデルであるFullSubNetを提案する。全帯域モデルとは、全帯域の雑音スペクトル特徴を入力とし、全帯域の音声ターゲットを出力するモデルを指す。一方、サブバンドモデルは各周波数帯域を独立して処理し、入力は特定の周波数とその周辺の複数の周波数（コンテキスト周波数）から構成され、出力は対応する周波数におけるクリーン音声ターゲットの予測値となる。これらの2種類のモデルはそれぞれ特徴が異なる。全帯域モデルは、スペクトル全体の文脈や長距離の帯域間依存関係を捉えることができるが、信号の定常性のモデリングや局所的なスペクトルパターンへの注目能力に欠ける。一方、サブバンドモデルはその逆で、局所的なスペクトル構造に敏感であるが、全体的な文脈把握が困難である。本研究で提案するFullSubNetでは、純粋な全帯域モデルと純粋なサブバンドモデルを直列に接続し、実用的な共同学習（joint training）により、両モデルの利点を統合する手法を採用している。本手法の有効性を検証するため、DNS Challenge（INTERSPEECH 2020）データセットを用いた実験を行った。実験結果から、全帯域情報とサブバンド情報は互いに補完的であり、FullSubNetがこれらを効果的に統合できることを確認した。さらに、本手法の性能は、DNS Challenge（INTERSPEECH 2020）でトップランクを記録した手法を上回ることが明らかになった。

ソースPDF