Sprachtrennung
Speech Separation bezieht sich auf die Aufgabe, alle überlappenden Sprachquellen aus einem gemischten Sprachsignal zu extrahieren. Als spezifisches Szenario von Quellenseparationsproblemen konzentriert sich Speech Separation hauptsächlich darauf, mehrere gleichzeitig auftretende Sprachsignale voneinander zu trennen, anstatt andere störende Signale wie Musik oder Geräusche. Diese Technologie hat erheblichen Anwendungswert in der Spracherkennung in Mehrsprecherumgebungen, bei Hörhilfegeräten und im Audio-Editing.
WSJ0-2mix
SepReformer-L
WHAMR!
TF-Locoformer (M)
Libri2Mix
MossFormer2 (w speed perturb)
WSJ0-3mix
Gated DualPathRNN
LRS2
TDFNet-small
WHAM!
MossFormer2
WSJ0-5mix
Gated DualPathRNN
VoxCeleb2
RTFS-Net-4
WSJ0-4mix
LRS3
IIANet
Libri5Mix
Hungarian PIT
Libri10Mix
LibriCSS
Conformer (large)
GRID corpus (mixed-speech)
Libri20Mix
iKala
U-Net
TCD-TIMIT corpus (mixed-speech)
WSJ0-2mix-16k
MossFormer2
Libri15Mix
Hungarian PIT