音声翻訳

音声から音声への翻訳(Speech-to-Speech Translation: S2ST)は、1つの言語の音声を直接別の言語の音声に変換する技術です。このタスクは、自動音声認識(Automatic Speech Recognition: ASR)、テキスト間の機械翻訳(Machine Translation: MT)、およびテキストから音声への合成(Text-to-Speech: TTS)サブシステムを用いて達成されますが、主にテキストに焦点を当てています。近年、中間的なテキスト表現に依存しないS2ST手法が徐々に登場し、翻訳の自然さと流暢さの向上を目指しています。これらの手法は、多言語間のコミュニケーションの円滑化や多言語対応の音声アシスタントの実現など、大きな応用価値を持っています。

音声翻訳 | SOTA | HyperAI超神経