6ヶ月前

概要

単チャネル音声強調は、劣化した信号からクリーンな音声を推定するという挑戦的な不定問題に焦点を当てており、従来の研究では畳み込みニューラルネットワーク（CNN）とTransformerを組み合わせた手法が音声強調タスクにおいて優れた性能を示していることが明らかになっている。しかし、既存のフレームワークは計算効率の面で十分に検討されておらず、スペクトルの自然なマルチスケール分布を無視している点が指摘されている。さらに、CNNの音声強調における潜在的な能力はまだ十分に活用されていない。これらの課題に対処するため、本研究では「Deep Separable Dilated Dense Block（DSDDB）」と「Group Prime Kernel Feedforward Channel Attention（GPFCA）」モジュールを提案する。具体的には、DSDDBは既存のエンコーダ/デコーダフレームワークに高いパラメータ効率と計算効率を導入する。一方、GPFCAモジュールはConformerの位置を置き換え、線形計算量でスペクトルの深層的な時系列および周波数特徴を抽出する。GPFCAは、提案する「Group Prime Kernel Feedforward Network（GPFN）」を活用し、マルチスケールの長距離、中距離、短距離の受容 field を統合するとともに、素数の性質を用いて周期的な重複効果を回避する。実験結果から、本研究で提案するPrimeK-NetはVoiceBank+Demandデータセットにおいて最先端（SOTA）の性能を達成し、パラメータ数わずか141万でPESQスコア3.61を実現した。

ソースPDF