فصل الكلام
فصل الكلام يشير إلى مهمة استخراج جميع مصادر الكلام المتداخلة من إشارة كلام مختلطة. كسيناريو محدد من مشاكل فصل المصادر، يركز فصل الكلام بشكل أساسي على عزل الإشارات الصوتية المتعددة التي تحدث في نفس الوقت بدلاً من الإشارات المتدخلة الأخرى مثل الموسيقى أو الضوضاء. تتمتع هذه التقنية بقيمة تطبيقية كبيرة في مجال التعرف على الكلام في بيئات متعددة المتحدثين، وأجهزة المساعدة السمعية، وتحرير الصوت.
WSJ0-2mix
SepReformer-L
WHAMR!
TF-Locoformer (M)
Libri2Mix
MossFormer2 (w speed perturb)
WSJ0-3mix
Gated DualPathRNN
LRS2
TDFNet-small
WHAM!
MossFormer2
WSJ0-5mix
Gated DualPathRNN
LRS3
IIANet
VoxCeleb2
RTFS-Net-4
WSJ0-4mix
Libri5Mix
Hungarian PIT
Libri10Mix
GRID corpus (mixed-speech)
Libri20Mix
LibriCSS
Conformer (large)
iKala
U-Net
Libri15Mix
Hungarian PIT
TCD-TIMIT corpus (mixed-speech)
WSJ0-2mix-16k
MossFormer2