Speech Enhancement
音声技術とは、コンピュータシステムが人間の音声を処理し、音声認識、合成、理解を実現する能力のことです。この技術の目的は、効率的な相互作用ができる知能システムを構築し、ユーザーエクスペリエンスを向上させることです。音声技術は、バーチャルアシスタント、カスタマーサービスシステム、音声翻訳など、さまざまな分野で広く応用されており、人間とコンピュータの自然で便利な相互作用を大幅に促進しています。
CHiME-3
Inter-Channel Conv-TasNet
DNS Challenge
ZipEnhancer
(M)
Deep Noise Suppression (DNS) Challenge
FRCRN
VoiceBank + DEMAND
CMGAN
DEMAND
Wave-U-Net
EARS-WHAM
Schrödinger Bridge (PESQ loss)
EasyCom
MaxDI (Baseline)
GRID corpus (mixed-speech)
Audio-Visual concat-ref
LibriSpeechDuplicate
spatialized DNS challenge
DeFT-AN
TCD-TIMIT corpus (mixed-speech)
WHAM!
SepFormer
WHAMR!
WSJ0 + DEMAND + RNNoise
DCUNet-MC