音声言語識別
音声言語識別は、音声処理の分野におけるサブタスクで、オーディオ入力から使用されている言語を自動的に認識することに焦点を当てています。このタスクは、音声信号の音響的特徴を分析することで特定の言語を正確に特定し、多言語環境での音声認識、翻訳、および対話の基本的なサポートを提供することを目指しています。その応用価値は、クロスランゲージ通信の効率と精度を向上させ、グローバルな交流を促進することにあります。
LRE07
VoxForge European
YouTube News dataset (No Noise)
Inception-v3 CRNN
YouTube News dataset (White Noise)
Inception-v3 CRNN
Untranscribed mixed-speech dataset
SVM
VoxForge Commonwealth
IndicTTS
VoxForge
LEAF
VOXLINGUA107
KALAKA-3
YouTube News dataset (Crackling Noise)
Inception-v3 CRNN
YouTube News dataset (Background Music)