음성-음성 번역

음성-음성 번역(S2ST)은 한 언어의 음성을 다른 언어의 음성으로 직접 변환하는 기술입니다. 이 작업은 자동 음성 인식(ASR), 텍스트-텍스트 기계 번역(MT), 그리고 텍스트-음성 합성(TTS) 하위 시스템을 통해 이루어지며, 주로 텍스트에 중점을 둡니다. 최근에는 중간 텍스트 표현에 의존하지 않는 S2ST 방법들이 점차 등장하고 있으며, 이는 번역의 자연스러움과 유창성을 개선하는 것을 목표로 하고 있습니다. 이러한 방법들은 언어 간 의사소통을 용이하게 하고 다국어 음성 비서를 가능하게 하는 등의 중요한 적용 가치를 가지고 있습니다.