
音声分離において、時間領域の手法は、学習可能なエンコーダから得られる潜在的な系列特徴を用いて、従来の時間周波数領域に代わって成功裏に導入されました。従来では、ネットワークの最終段階で特徴が話者固有のものに分離されていました。本研究では、より直感的な戦略を提案します。これは、特徴系列を追加次元として話者の数に拡張し、早期に特徴を分離する方法です。これを実現するために、エンコーダとデコーダが異なる処理を行う非対称的な戦略が提示されます。エンコーダは特徴を解析し、その出力は分離される話者の数に分割されます。その後、重み共有デコーダが分割された系列を再構成し、また話者間処理も行います。話者情報に依存せずに、重み共有ネットワークは分離目標を使用して直接特徴を判別学習します。さらに、性能向上のために伝統的な手法では系列長を延長し、これにより双方向パスモデルが採用されました。双方向パスモデルは、長い系列を効果的に処理するためにセグメント化を行います。これに対応して、我々はチャンキングや双方向パス処理なしで長い系列をより効率的に直接処理できる全局および局所トランスフォーマーブロックを導入します。実験結果は、この非対称構造が効果的であり、提案した全局および局所トランスフォーマーの組み合わせが双方向パス構造における間チャンクおよび内チャンク処理の役割を十分に置き換えることを示しました。最後に、これらの両方を取り入れた提案モデルは様々なベンチマークデータセットで最高峰の性能を達成し、かつ大幅な計算量削減を実現しました。注:「inter- and intra-chunk processing」については、「間チャンクおよび内チャンク処理」と訳しました。「chunking」については、「セグメント化」と訳しました。これらは音声処理分野での一般的な用語であるためです。