音声分離
音声分離とは、複数の重なり合った音声源を混合音声信号から抽出するタスクのことです。ソース分離問題の特定のシナリオとして、音声分離は主に他の干渉信号(音楽やノイズなど)ではなく、複数の同時発生する音声信号を分離することに焦点を当てています。この技術は、多話者環境での音声認識、聴覚支援デバイス、および音声編集において重要な応用価値を持っています。
WSJ0-2mix
SepReformer-L
WHAMR!
TF-Locoformer (M)
Libri2Mix
MossFormer2 (w speed perturb)
WSJ0-3mix
Gated DualPathRNN
LRS2
TDFNet-small
WHAM!
MossFormer2
WSJ0-5mix
Gated DualPathRNN
LRS3
IIANet
VoxCeleb2
RTFS-Net-4
WSJ0-4mix
Libri5Mix
Hungarian PIT
Libri10Mix
GRID corpus (mixed-speech)
Libri20Mix
LibriCSS
Conformer (large)
iKala
U-Net
Libri15Mix
Hungarian PIT
TCD-TIMIT corpus (mixed-speech)
WSJ0-2mix-16k
MossFormer2