HyperAI초신경
Back to Headlines

NVIDIA Riva TTS, 다국어 실시간 음성 합성 기술 혁신

2일 전

NVIDIA의 Riva TTS를 활용한 다국어 인간 같은 음성 합성 및 음성 클론 기술 강화 음성 인공지능(AI)은 디지털 비서와 음성 에이전트 구축에 주로 사용되지만, 그 영향력은 이러한 응용 프로그램을 넘어 다양한 산업에서 혁신을 주도하고 있습니다. 텍스트-음성 변환(TTS)과 자동 음성 인식(ASR) 등 핵심 기술들은 실시간 번역, 대화형 디지털 인간, 그리고 목소리를 잃은 개인들의 목소리 복원 등에 활용되고 있습니다. 이러한 기술들의 발전은 사람들의 의사소통, 학습, 그리고 연결 방식을 근본적으로 바꾸고 있습니다. NVIDIA Riva는 실시간 음성 AI 파이프라인을 구축하기 위한 다국어 마이크로서비스 모음입니다. Riva는 TTS, ASR, 그리고 신경 기계 번역(NMT)에서 최고 수준의 정확성을 제공하며, 온프레미스, 클라우드, 엣지, 및 임베디드 장치에서 작동합니다. TTS, 즉 음성 합성은 텍스트를 고품질의 자연스러운 음성으로 변환하는 기술입니다. 이 분야에서는 오랫동안 어려움을 겪어왔으나, NVIDIA는 세 가지 최첨단 Riva TTS 모델을 개발하여 이 과제에 크게 기여하고 있습니다. 이 모델들은 다음과 같습니다: Magpie TTS Multilingual 아키텍처: 스트리밍 인코더-디코더 트랜스포머 사용 사례: 음성 AI 에이전트, 디지털 인간, 다국어 상호 응답 시스템(IVR), 오디오 북 지원 언어: 영어, 스페인어, 프랑스어, 독일어 기술적 세부사항: NVIDIA Dynamo-Triton을 활용한 지연 시간 <200ms, 선호도 맞춤 프레임워크 및 분류기 없음 안내(CFG)를 사용하여 텍스트 부합 최적화 Magpie TTS Zeroshot 아키텍처: 스트리밍 인코더-디코더 트랜스포머 사용 사례: 실시간 전화 응용, 게임 비플레이어 캐릭터(NPC) 지원 언어: 영어 기술적 세부사항: NVIDIA Dynamo-Triton을 활용한 지연 시간 <200ms, 선호도 맞춤 프레임워크 및 분류기 없음 안내(CFG)를 사용하여 텍스트 부합 최적화, 5초 음성 샘플을 활용한 목소리 클론 Magpie TTS Flow 아키텍처: 오프라인 플로우 매칭 디코더 사용 사례: 스튜디오 더빙, 팟캐스트 내레이션 지원 언어: 영어 기술적 세부사항: 텍스트-음성 부합을 학습하는 새로운 아키텍처, 3초 음성 샘플을 활용한 목소리 클론 스트리밍 인코더-디코더 트랜스포머 Magpie TTS Multilingual과 Magpie TTS Zeroshot 모델은 스트리밍 응용 프로그램을 대상으로 하는 인코더-디코더 트랜스포머 아키텍처를 기반으로 합니다. 인코더는 비자기회귀(NAR) 트랜스포머이고, 디코더는 자기회귀(AR) 트랜스포머로 인코더와 교차 주목(cross-attention)을 수행합니다. 모델의 입력에는 토크나이즈된 텍스트와 대상 화자의 참조 음성에서 추출한 음향 코드가 포함됩니다. 출력은 대상 화자의 생성된 음향 토큰입니다. 두 모델 모두 새로운 선호도 맞춤 프레임워크와 분류기 없음 안내(CFG)를 사용하여 지속적인 문제들을 해결합니다. 이러한 문제들은 AI가 허위 또는 오해를 일으키는 음성을 생성하거나, 특히 입력 텍스트에 반복되는 토큰이 있을 때 원하지 않는 발성 등을 포함합니다. 다른 오픈 소스 모델들에 비해 NVIDIA 모델들은 훨씬 적은 데이터로도 가장 낮은 문자 오류율(CER)과 단어 오류율(WER)을 제공합니다. 인간 평가에서도 자연스러움(MOS)과 화자 유사성(SMOS)에서 가장 높은 점수를 받았습니다. Magpie TTS Flow Magpie TTS Flow 모델은 텍스트-음성 부합을 학습하는 새로운 아키텍처를 도입합니다. 이 모델은 비자기회귀(NAR) 훈련 프레임워크(E2 TTS)에 이산 음성 단위(HuBERT)를 통합하여 텍스트-음성 부합과 음향 특성을 동시에 모델링하여 자연스러운 프로사이드 출력을 달성합니다. 저자원 언어의 경우 대규모 표기된 데이터셋이 부족하므로, Magpie TTS Flow는 별도의 부합 메커니즘이 필요 없이 표기되지 않은 음성 데이터를 직접 활용하여 부합 학습을 프리트레이닝 과정에 통합합니다. 이렇게 함으로써 부합 없는 음성 변환이 가능해지고, 표기된 데이터가 적더라도 미세 조정(fine-tuning)이 더 빠르게 수렴됩니다. 프리트레이닝 단계에서는 음성 파형이 HuBERT를 통해 이산 단위로 변환됩니다. 이단유닛 시퀀스들은 마스크 처리된 음성과 결합되어 모델이 단위-음성 부합을 학습할 수 있도록 합니다. 미세 조정 단계에서는 표기된 데이터에서 텍스트 임베딩과 마스크 처리된 대상 참조 음성이 결합되어 입력으로 전달되어 대상 화자의 음성을 생성합니다. Magpie TTS Flow는 다른 모델들보다 훨씬 적은 프리트레이닝 및 미세 조정 반복을 통해 높은 발음 정확도(저 WER)와 높은 화자 유사성(SECS-O)을 달성할 수 있습니다. 또한 디코더의 입력으로 언어 ID를 추가하여 여러 언어에 대한 텍스트-음성 부합을 효과적으로 학습할 수 있어 다국어 TTS 시스템으로서 강력한 성능을 보입니다. 안전 협력 NVIDIA는 신뢰할 수 있는 AI 이니셔티브의 일환으로, 합성 음성의 안전하고 책임감 있는 발전을 우선시합니다. 합성 음성의 위험성을 해결하기 위해, Pindrop과 같은 선도적인 딥페이크 및 음성 감지 회사들과 협력하며, Riva Magpie TTS Zeroshot와 같은 모델에 대한 초기 접근권을 제공합니다. Pindrop의 기술은 금융 서비스, 대형 고객 센터, 소매, 유틸리티, 보험 등 다양한 산업에서 신뢰받고 있으며, 실시간 음성 인증과 딥페이크 감지를 통해 중요한 상호작용에서 사기와 모방을 방지합니다. 이러한 딥페이크 감지 협력은 안전한 합성 음성 배포를 위한 중요한 기준을 설정하며, 고객 센터와 미디어 무결성 등에서 중요한 위험을 해결합니다. NVIDIA Riva Magpie TTS 모델 시작하기 NVIDIA Riva Magpie TTS 모델들은 실시간, 자연스럽고 화자 적응형 음성 합성에 새로운 기준을 제시합니다. 다국어 기능, 제로샷 목소리 특성화, 고급 선호도 맞춤 등의 특징을 갖추고 있어 표현력 있고 정확하며 매우 자연스러운 오디오를 생성하며, 화자와 내용에 적응합니다. 유연한 아키텍처와 다중 언어에서 낮은 단어 오류율을 보이는 강한 성능으로, Riva Magpie TTS는 의료, 접근성, 그리고 인간처럼 보이는 실시간 음성 상호작용이 필요한 모든 응용 프로그램에 이상적인 모델을 제공합니다. 산업 전문가의 평가 NVIDIA의 Riva TTS 모델들은 실시간 음성 AI 분야에서 혁신을 이끌며, 다국어 지원과 높은 성능으로 다양한 산업에서 활용될 가능성이 크다고 평가받고 있습니다. 특히, 제로샷 목소리 클론 기능은 개인화된 음성 경험을 제공하는 데 유용하며, 신뢰성 있는 딥페이크 감지 기술과의 협력을 통해 안전성을 보장합니다. 이러한 기술들은 NVIDIA의 지속적인 연구와 개발 노력의 결과로, 앞으로도 더욱 발전할 것으로 기대됩니다.

Related Links