Speech Enhancement
التقنية الصوتية تشير إلى قدرة أنظمة الحاسوب على معالجة الكلام البشري، بهدف تحقيق التعرف على الكلام، وإنتاجه، وفهمه. الهدف منها هو بناء أنظمة ذكية يمكنها التفاعل بكفاءة، مما يعزز تجربة المستخدم. وهي تُستخدم على نطاق واسع في المساعدين الافتراضيين، وأنظمة خدمة العملاء، وترجمة الصوت، وغيرها من المجالات، مما يساهم بشكل كبير في تعزيز طبيعية وسهولة التفاعل بين الإنسان والحاسوب.
CHiME-3
Inter-Channel Conv-TasNet
DNS Challenge
ZipEnhancer
(M)
Deep Noise Suppression (DNS) Challenge
FRCRN
VoiceBank + DEMAND
CMGAN
DEMAND
Wave-U-Net
EARS-WHAM
Schrödinger Bridge (PESQ loss)
EasyCom
MaxDI (Baseline)
GRID corpus (mixed-speech)
Audio-Visual concat-ref
LibriSpeechDuplicate
spatialized DNS challenge
DeFT-AN
TCD-TIMIT corpus (mixed-speech)
WHAM!
SepFormer
WHAMR!
WSJ0 + DEMAND + RNNoise
DCUNet-MC