音声翻訳 | SOTA | HyperAI超神経

音声から音声への翻訳（Speech-to-Speech Translation: S2ST）は、1つの言語の音声を直接別の言語の音声に変換する技術です。このタスクは、自動音声認識（Automatic Speech Recognition: ASR）、テキスト間の機械翻訳（Machine Translation: MT）、およびテキストから音声への合成（Text-to-Speech: TTS）サブシステムを用いて達成されますが、主にテキストに焦点を当てています。近年、中間的なテキスト表現に依存しないS2ST手法が徐々に登場し、翻訳の自然さと流暢さの向上を目指しています。これらの手法は、多言語間のコミュニケーションの円滑化や多言語対応の音声アシスタントの実現など、大きな応用価値を持っています。

Hokkien→En (Two-pass decoding)

SeamlessM4T Large