
要約
多話者環境における堅牢な音声処理には効果的な音声分離が不可欠です。最近の深層学習システムはこの問題の解決に大きな進展を遂げていますが、特にリアルタイムや短遅延アプリケーションにおいては依然として困難が伴います。多くの手法は、混合信号の時間周波数表現に対して各ソースのマスクを構築しようと試みていますが、これは必ずしも音声分離にとって最適な表現とは限りません。さらに、時間周波数分解は位相/振幅の分離や十分な周波数解像度を得るために必要な長い時間窓といった固有の問題を引き起こします。これらの制約を克服するために、我々は時間領域オーディオ分離ネットワーク(Time-domain Audio Separation Network, TasNet)を提案します。エンコーダー-デコーダー枠組みを使用して直接信号を時間領域でモデル化し、非負のエンコーダー出力上でソース分離を行います。この方法により、周波数分解ステップが不要となり、エンコーダー出力上のソースマスク推定という問題に簡素化されます。その後、デコーダーによって合成されます。我々のシステムは現在の最先端の因果的および非因果的な音声分離アルゴリズムを上回り、音声分離の計算コストを削減するとともに、出力に必要な最小遅延時間を大幅に短縮します。これにより、低消費電力かつリアルタイム実装が望まれるイヤラブル機器や通信機器などのアプリケーションにTasNetが適していることが示されました。