Speech Separation
La séparation de la parole fait référence à la tâche d'extraire toutes les sources de parole superposées d'un signal de parole mixte. En tant que scénario spécifique des problèmes de séparation de sources, la séparation de la parole se concentre principalement sur l'isolement de plusieurs signaux de parole simultanés plutôt que sur d'autres signaux parasites tels que la musique ou le bruit. Cette technologie présente une valeur d'application significative dans la reconnaissance vocale dans des environnements à plusieurs locuteurs, les appareils d'assistance auditive et l'édition audio.
GRID corpus (mixed-speech)
iKala
U-Net
Libri10Mix
Libri15Mix
Hungarian PIT
Libri20Mix
Libri2Mix
MossFormer2 (w speed perturb)
Libri5Mix
Hungarian PIT
LibriCSS
Conformer (large)
LRS2
TDFNet-small
LRS3
IIANet
TCD-TIMIT corpus (mixed-speech)
VoxCeleb2
RTFS-Net-4
WHAM!
SepReformer-L + DM
WHAMR!
TF-Locoformer (M)
WSJ0-2mix
SepReformer-L
WSJ0-2mix-16k
MossFormer2
WSJ0-3mix
Gated DualPathRNN
WSJ0-4mix
WSJ0-5mix
Gated DualPathRNN