Speech Separation
音声分離とは、複数の重なり合った音声源を混合音声信号から抽出するタスクのことです。ソース分離問題の特定のシナリオとして、音声分離は主に他の干渉信号(音楽やノイズなど)ではなく、複数の同時発生する音声信号を分離することに焦点を当てています。この技術は、多話者環境での音声認識、聴覚支援デバイス、および音声編集において重要な応用価値を持っています。
GRID corpus (mixed-speech)
iKala
U-Net
Libri10Mix
Libri15Mix
Hungarian PIT
Libri20Mix
Libri2Mix
MossFormer2 (w speed perturb)
Libri5Mix
Hungarian PIT
LibriCSS
Conformer (large)
LRS2
TDFNet-small
LRS3
IIANet
TCD-TIMIT corpus (mixed-speech)
VoxCeleb2
RTFS-Net-4
WHAM!
SepReformer-L + DM
WHAMR!
TF-Locoformer (M)
WSJ0-2mix
SepReformer-L
WSJ0-2mix-16k
MossFormer2
WSJ0-3mix
Gated DualPathRNN
WSJ0-4mix
WSJ0-5mix
Gated DualPathRNN