
要約
単一チャネル音声分離タスクにおける上限を提示し、これは短い音声セグメントの性質に関する仮定に基づいています。この上限を使用することで、最近の手法が数人の話者に対して著しい進歩を遂げている一方で、5人および10人の話者に対しては改善の余地があることを示すことができます。次に、Deep neural network(深層ニューラルネットワーク)であるSepItを導入します。SepItは反復処理により異なる話者の推定を段階的に向上させます。テスト時には、我々の分析から導かれる相互情報量基準に基づいて、各テストサンプルごとに反復回数が変動します。広範な実験において、SepItは2人、3人、5人、10人の話者に対して現行の最先端ニューラルネットワークを上回る性能を示しました。