音声認識変換
音声認識と翻訳は、自然言語処理の重要なサブタスクであり、1つの言語の音声信号を別の言語のテキスト形式に変換することを目的としています。このタスクは、エンドツーエンドまたはカスケード方式で実現できます。音声からテキストへの翻訳の目標は、クロスランゲージコミュニケーションの効率と精度を向上させることです。多言語会議の記録、国際電話の通話記録、オンライン教育、遠隔医療など、さまざまな場面で広く応用されており、実践的な価値が非常に高いです。
MuST-C EN->DE
Task Modulation + Multitask Learning(ASR/MT) + Data Augmentation
MuST-C EN->ES
Dual-decoder Transformer
MuST-C EN->FR
Dual-decoder Transformer
CoVoST 2 eng-X
CoVoST 2 X-eng
FLEURS eng-X
FLEURS X-eng
libri-trans
Transformer + ASR Pretrain + SpecAug
MuST-C
Transformer with Adapters
MuST-C EN->NL
Speechformer