17日前

Dense-TSNet:超軽量音声強調のための密接接続二段構造

Zizhen Lin, Yuanle Li, Junyu Wang, Ruili Li
Dense-TSNet:超軽量音声強調のための密接接続二段構造
要約

音声増強は、ノイズ環境下における音声の品質および理解可能性を向上させることを目的としている。近年の進展は、特に特徴抽出の向上に寄与する二段階(Two-Stage, TS)アーキテクチャを活用した深層ニューラルネットワークに集中している。しかし、これらのモデルの複雑さとサイズは依然として大きな課題であり、リソース制約のある環境における応用を制限している。エッジデバイス向けに適したモデル設計は、独自の技術的課題を伴う。狭小な軽量モデルは、損失関数の不均一な勾配構造に起因する性能の限界に直面しやすい。また、TransformerやMambaといった高度な演算子は、実際の現場での展開において畳み込みニューラルネットワーク(CNN)が提供する実用性と効率性に比べて、柔軟性や実行効率に劣ることがある。こうした課題に対応するため、本研究ではDense-TSNetと呼ばれる革新的な超軽量音声増強ネットワークを提案する。本手法は、従来のTwo-Stageアーキテクチャと比較して、学習後期における目的関数のより堅牢な最適化を実現する新規のDense Two-Stage(Dense-TS)アーキテクチャを採用している。これにより、ベースラインモデルの早期収束問題を克服し、最終的な性能を向上させることができる。さらに、多視点注視ブロック(Multi-View Gaze Block, MVGB)を導入し、畳み込みニューラルネットワーク(CNN)を用いてグローバル、チャネル、局所の三つの視点から特徴抽出を強化している。また、損失関数の選定が知覚品質に与える影響についても検討している。Dense-TSNetは、約14Kパラメータという極めてコンパクトなモデルサイズを実現しつつ、優れた性能を発揮しており、リソース制約の厳しい環境における展開に特に適している。