15日前

TDFNet:トップダウン融合を用いた効率的な音声視覚音声分離モデル

Samuel Pegg, Kai Li, Xiaolin Hu
TDFNet:トップダウン融合を用いた効率的な音声視覚音声分離モデル
要約

近年、音声認識、話者分離(diarization)、シーン解析、補助技術など多岐にわたる分野における応用可能性から、音声・視覚情報統合型音声分離(audio-visual speech separation)は注目を集めている。低遅延を要する応用においては、軽量な音声・視覚音声分離ネットワークの設計が重要であるが、従来の手法はより優れた分離性能を達成するためには高コストな計算量と多数のパラメータを必要としているのが一般的である。本論文では、音声のみを対象とした分離手法TDANetを基盤として構築された、最新の音声・視覚音声分離モデル「Top-Down-Fusion Net(TDFNet)」を提案する。TDFNetは、音声ネットワークと視覚ネットワークの両方においてTDANetのアーキテクチャを採用しており、パラメータ数が少ないながらも効率的なモデル設計を実現している。LRS2-2Mixデータセットにおける実験結果から、TDFNetは従来の最先端(SOTA)手法であるCTCNetと比較して、すべての評価指標で最大10%の性能向上を達成した。特に注目すべきは、CTCNetに比べてパラメータ数が少なく、乗算加算演算(MACs)もわずか28%にまで削減されたにもかかわらず、その高い性能を維持している点である。本研究の手法は、音声・視覚領域における音声分離課題に対して、極めて効果的かつ効率的な解決策を提供しており、視覚情報を最適に活用する上で重要な進展を示している。

TDFNet:トップダウン融合を用いた効率的な音声視覚音声分離モデル | 最新論文 | HyperAI超神経