온라인 튜토리얼 | 마이크로소프트, 4개 역할 간 90분간의 자연스러운 대화가 가능한 VibeVoice 오픈소스 공개

7달 전

최근 텍스트 음성 변환(TTS) 기술은 상당한 발전을 이루어, 한 명의 화자가 말하는 짧은 음성을 고음질로 자연스럽게 합성할 수 있게 되었습니다. 그러나 여러 화자가 참여하는 장문의 대화 오디오를 확장 가능하게 합성하는 데에는 여전히 상당한 어려움이 남아 있어, 팟캐스트나 다인용 오디오북과 같은 분야에서의 활용이 제한적입니다.

기존 방식은 독립적으로 합성된 발화를 연결하는 방식으로 오디오를 생성하더라도 자연스러운 대화 전환과 내용 인식을 통한 음성 생성을 구현하는 데 한계가 있습니다. 산업 응용 분야의 요구가 증가함에 따라 다양한 분야에서 다중 화자 장문 대화 음성 생성에 대한 연구가 활발히 진행되고 있습니다.하지만 대부분의 결과는 아직 오픈 소스로 공개되지 않았거나, 생성된 데이터의 길이와 안정성에 관한 문제가 여전히 해결되지 않은 상태입니다.

이러한 맥락에서,마이크로소프트는 확장 가능한 장문형 다중 화자 음성 합성 기술을 구현하기 위해 VibeVoice를 오픈소스로 공개했습니다. VibeVoice는 긴 다중 화자 음성을 합성하기 위해 차기 토큰 확산 방식을 사용합니다. 이 방식은 확산 자기회귀를 이용하여 연속 데이터를 모델링하는 잠재 벡터를 생성하는 통합된 방법입니다.

이를 위해 연구팀은 현재 널리 사용되는 인코더 모델과 비교하여 성능은 유사하지만 데이터 압축률을 80배 향상시킨 혁신적인 연속 음성 분할기를 개발했습니다. 그 결과 최대 3200배(7.5Hz 프레임 속도에 해당)의 압축률을 달성했습니다. 이는 오디오 충실도를 유지하면서 긴 시퀀스 처리의 계산 효율성을 크게 향상시킵니다.

단순한 아키텍처에도 불구하고 VibeVoice는 탁월한 기능을 보여줍니다.이 기술은 64K 컨텍스트 창 내에서 최대 4명의 화자가 참여하는 최대 90분 분량의 음성을 합성할 수 있으며, 더욱 풍부한 음색, 자연스러운 억양, 그리고 실제 대화의 분위기를 포착합니다.이 모델은 다양한 언어 환경에서 뛰어난 전이성을 보여주며, 전반적인 성능 면에서 기존의 오픈 소스 및 독점 대화 모델을 능가합니다.

한 해가 저물어가는 시점에서, 이 글에서는 VibeVoice를 사용하여 1분 20초 길이의 새해 인사 오디오 클립을 생성했습니다. 생성된 클립의 음질은 기존의 단조롭고 기계적인 소리에서 벗어나 풍부하고 입체적인 음색과 감정적 긴장감을 표현하여 따뜻하고 생생하게 들리도록 크게 개선되었습니다.

"VibeVoice-Realtime TTS: 실시간 음성 합성 서비스"가 HyperAI 웹사이트(hyper.ai)의 튜토리얼 섹션에서 제공됩니다. 단 한 번의 클릭으로 배포하고 사용해 볼 수 있습니다!

튜토리얼 링크:

https://go.hyper.ai/jdZrA

데모 실행

1. hyper.ai 홈페이지에 접속한 후, "VibeVoice-Realtime TTS: 실시간 음성 합성 서비스"를 선택하거나 "튜토리얼" 페이지에서 해당 항목을 선택하세요. 그런 다음 "온라인으로 튜토리얼 실행"을 클릭하세요.

2. 페이지가 리디렉션된 후 오른쪽 상단의 "복제"를 클릭하여 튜토리얼을 자신의 컨테이너로 복제합니다.

참고: 페이지 오른쪽 상단에서 언어를 변경할 수 있습니다. 현재 중국어와 영어로만 제공됩니다. 이 튜토리얼에서는 영어로 된 단계를 안내합니다.

3. "NVIDIA GeForce RTX 5090" 및 "PyTorch" 이미지를 선택하고 필요에 따라 "Pay As You Go" 또는 "Daily Plan/Weekly Plan/Monthly Plan"을 선택한 다음 "Continue job execution"을 클릭합니다.

HyperAI는 신규 사용자를 위한 가입 보너스를 제공합니다. 단 $1로 5시간 동안 RTX 5090 컴퓨팅 파워를 이용할 수 있으며(정가 $2.45), 이 리소스는 무기한으로 사용 가능합니다.

4. 리소스 할당을 기다리세요. 첫 번째 복제에는 약 3분이 소요됩니다. 상태가 "실행 중"으로 변경되면 "API 주소" 옆의 이동 화살표를 클릭하여 데모 페이지로 이동하세요.

효과 시연

데모 실행 페이지에 접속한 후 테스트 비디오를 업로드하고 "변환할 텍스트" 필드에 텍스트를 입력한 다음 "화자 음성" 옵션에서 7가지 음색 중 하나를 선택하세요. "CFG 스케일"을 조정하여 음성 스타일의 강도를 조절할 수 있으며, 값이 높을수록 감정이 강해집니다. 마지막으로 "음성 생성"을 클릭하고 오디오가 생성될 때까지 잠시 기다리세요.

한 해가 저물어가는 지금, 바이브보이스의 새해 인사 영상을 감상해 보세요!

위는 HyperAI가 이번에 추천하는 튜토리얼입니다. 누구나 와서 체험해 보세요!

튜토리얼 링크:

https://go.hyper.ai/jdZrA

관련 뉴스

이모티콘으로 음성 생성을 제어할 수 있을까요? Irodori-TTS는 RF-DiT 아키텍처 기반의 일본어 TTS입니다. 습진 및 백선 피부 질환 데이터 세트: 의료 영상 분류 및 전이 학습을 지원합니다.

온라인 튜토리얼 | 600개 이상의 언어 지원, 샤오미 오픈 소스 OmniVoice: 단 3~10초의 참조 오디오만으로 음성 복제 구현

데이터셋 개요 | NVIDIA, Nemotron 데이터셋 공개: 10TB 이상의 토큰과 4천만 개의 학습 샘플을 포함하며, 수학적 추론, 코드 생성 및 다국어 대화 학습을 지원합니다.

텐센트가 Hy-MT1.5 번역 모델을 오픈소스로 공개했습니다. 440MB 용량으로 최고 수준의 번역 기능을 구현합니다. 또한 MIT는 27,000개의 실제 올림피아드 수학 문제를 포함하는 멀티모달 수학 추론 벤치마크인 MathNet을 공동으로 발표했습니다.

구글이 혼합 테이블형 데이터를 위한 제로샷 예측 모델인 TabFM-1.0.0-PyTorch를 출시했습니다. NVIDIA는 수천만 개의 문자를 포함하는 다국적 합성 문자 데이터셋을 오픈소스로 공개했습니다.

무료 CPU 튜토리얼 | 8,800개의 별점을 획득한 Supertonic-3 TTS 모델은 약 9,900만 개의 파라미터만으로 31개 언어를 지원합니다.

ICML 26 우수 논문: 칭화대 JustGRPO, dLLM 추론 병목 현상 극복; 단순 지시 테스트에 작별을 고하다: Agents Last Exam, 지능형 에이전트의 장기적인 전문 역량을 종합적으로 평가.

로컬에서 실행 가능한 개인정보 탐지 모델인 Privacy Filter는 저비용으로 고품질 개인정보 필터링을 구현합니다. 완전 오픈 소스 프로젝트이며, 8만 건 이상의 경기가 포함된 Transfermarkt 구조화된 축구 데이터셋을 지원합니다.

온라인 튜토리얼 | 최대 4배 빠른 생성 속도: DiffusionGemma는 다중 라운드 병렬 노이즈 제거 기반의 지속적인 최적화를 통해 전체 텍스트 블록을 동시에 생성할 수 있습니다.

HyperAI

온라인 튜토리얼 | 마이크로소프트, 4개 역할 간 90분간의 자연스러운 대화가 가능한 VibeVoice 오픈소스 공개

7달 전

튜토리얼 링크:

https://go.hyper.ai/jdZrA

데모 실행

2. 페이지가 리디렉션된 후 오른쪽 상단의 "복제"를 클릭하여 튜토리얼을 자신의 컨테이너로 복제합니다.

참고: 페이지 오른쪽 상단에서 언어를 변경할 수 있습니다. 현재 중국어와 영어로만 제공됩니다. 이 튜토리얼에서는 영어로 된 단계를 안내합니다.

효과 시연

한 해가 저물어가는 지금, 바이브보이스의 새해 인사 영상을 감상해 보세요!

위는 HyperAI가 이번에 추천하는 튜토리얼입니다. 누구나 와서 체험해 보세요!

튜토리얼 링크:

https://go.hyper.ai/jdZrA

관련 뉴스

이모티콘으로 음성 생성을 제어할 수 있을까요? Irodori-TTS는 RF-DiT 아키텍처 기반의 일본어 TTS입니다. 습진 및 백선 피부 질환 데이터 세트: 의료 영상 분류 및 전이 학습을 지원합니다.

온라인 튜토리얼 | 600개 이상의 언어 지원, 샤오미 오픈 소스 OmniVoice: 단 3~10초의 참조 오디오만으로 음성 복제 구현

데이터셋 개요 | NVIDIA, Nemotron 데이터셋 공개: 10TB 이상의 토큰과 4천만 개의 학습 샘플을 포함하며, 수학적 추론, 코드 생성 및 다국어 대화 학습을 지원합니다.

텐센트가 Hy-MT1.5 번역 모델을 오픈소스로 공개했습니다. 440MB 용량으로 최고 수준의 번역 기능을 구현합니다. 또한 MIT는 27,000개의 실제 올림피아드 수학 문제를 포함하는 멀티모달 수학 추론 벤치마크인 MathNet을 공동으로 발표했습니다.

구글이 혼합 테이블형 데이터를 위한 제로샷 예측 모델인 TabFM-1.0.0-PyTorch를 출시했습니다. NVIDIA는 수천만 개의 문자를 포함하는 다국적 합성 문자 데이터셋을 오픈소스로 공개했습니다.

무료 CPU 튜토리얼 | 8,800개의 별점을 획득한 Supertonic-3 TTS 모델은 약 9,900만 개의 파라미터만으로 31개 언어를 지원합니다.

ICML 26 우수 논문: 칭화대 JustGRPO, dLLM 추론 병목 현상 극복; 단순 지시 테스트에 작별을 고하다: Agents Last Exam, 지능형 에이전트의 장기적인 전문 역량을 종합적으로 평가.

로컬에서 실행 가능한 개인정보 탐지 모델인 Privacy Filter는 저비용으로 고품질 개인정보 필터링을 구현합니다. 완전 오픈 소스 프로젝트이며, 8만 건 이상의 경기가 포함된 Transfermarkt 구조화된 축구 데이터셋을 지원합니다.

Command Palette

온라인 튜토리얼 | 마이크로소프트, 4개 역할 간 90분간의 자연스러운 대화가 가능한 VibeVoice 오픈소스 공개

데모 실행

효과 시연

Command Palette

온라인 튜토리얼 | 마이크로소프트, 4개 역할 간 90분간의 자연스러운 대화가 가능한 VibeVoice 오픈소스 공개

데모 실행

효과 시연

관련 뉴스

이모티콘으로 음성 생성을 제어할 수 있을까요? Irodori-TTS는 RF-DiT 아키텍처 기반의 일본어 TTS입니다. 습진 및 백선 피부 질환 데이터 세트: 의료 영상 분류 및 전이 학습을 지원합니다.

온라인 튜토리얼 | 600개 이상의 언어 지원, 샤오미 오픈 소스 OmniVoice: 단 3~10초의 참조 오디오만으로 음성 복제 구현

데이터셋 개요 | NVIDIA, Nemotron 데이터셋 공개: 10TB 이상의 토큰과 4천만 개의 학습 샘플을 포함하며, 수학적 추론, 코드 생성 및 다국어 대화 학습을 지원합니다.

구글이 혼합 테이블형 데이터를 위한 제로샷 예측 모델인 TabFM-1.0.0-PyTorch를 출시했습니다. NVIDIA는 수천만 개의 문자를 포함하는 다국적 합성 문자 데이터셋을 오픈소스로 공개했습니다.

무료 CPU 튜토리얼 | 8,800개의 별점을 획득한 Supertonic-3 TTS 모델은 약 9,900만 개의 파라미터만으로 31개 언어를 지원합니다.

ICML 26 우수 논문: 칭화대 JustGRPO, dLLM 추론 병목 현상 극복; 단순 지시 테스트에 작별을 고하다: Agents Last Exam, 지능형 에이전트의 장기적인 전문 역량을 종합적으로 평가.

로컬에서 실행 가능한 개인정보 탐지 모델인 Privacy Filter는 저비용으로 고품질 개인정보 필터링을 구현합니다. 완전 오픈 소스 프로젝트이며, 8만 건 이상의 경기가 포함된 Transfermarkt 구조화된 축구 데이터셋을 지원합니다.

온라인 튜토리얼 | 최대 4배 빠른 생성 속도: DiffusionGemma는 다중 라운드 병렬 노이즈 제거 기반의 지속적인 최적화를 통해 전체 텍스트 블록을 동시에 생성할 수 있습니다.

Command Palette

온라인 튜토리얼 | 마이크로소프트, 4개 역할 간 90분간의 자연스러운 대화가 가능한 VibeVoice 오픈소스 공개

데모 실행

효과 시연

관련 뉴스

이모티콘으로 음성 생성을 제어할 수 있을까요? Irodori-TTS는 RF-DiT 아키텍처 기반의 일본어 TTS입니다. 습진 및 백선 피부 질환 데이터 세트: 의료 영상 분류 및 전이 학습을 지원합니다.

온라인 튜토리얼 | 600개 이상의 언어 지원, 샤오미 오픈 소스 OmniVoice: 단 3~10초의 참조 오디오만으로 음성 복제 구현

데이터셋 개요 | NVIDIA, Nemotron 데이터셋 공개: 10TB 이상의 토큰과 4천만 개의 학습 샘플을 포함하며, 수학적 추론, 코드 생성 및 다국어 대화 학습을 지원합니다.

구글이 혼합 테이블형 데이터를 위한 제로샷 예측 모델인 TabFM-1.0.0-PyTorch를 출시했습니다. NVIDIA는 수천만 개의 문자를 포함하는 다국적 합성 문자 데이터셋을 오픈소스로 공개했습니다.

무료 CPU 튜토리얼 | 8,800개의 별점을 획득한 Supertonic-3 TTS 모델은 약 9,900만 개의 파라미터만으로 31개 언어를 지원합니다.

ICML 26 우수 논문: 칭화대 JustGRPO, dLLM 추론 병목 현상 극복; 단순 지시 테스트에 작별을 고하다: Agents Last Exam, 지능형 에이전트의 장기적인 전문 역량을 종합적으로 평가.

로컬에서 실행 가능한 개인정보 탐지 모델인 Privacy Filter는 저비용으로 고품질 개인정보 필터링을 구현합니다. 완전 오픈 소스 프로젝트이며, 8만 건 이상의 경기가 포함된 Transfermarkt 구조화된 축구 데이터셋을 지원합니다.

온라인 튜토리얼 | 최대 4배 빠른 생성 속도: DiffusionGemma는 다중 라운드 병렬 노이즈 제거 기반의 지속적인 최적화를 통해 전체 텍스트 블록을 동시에 생성할 수 있습니다.

관련 뉴스

이모티콘으로 음성 생성을 제어할 수 있을까요? Irodori-TTS는 RF-DiT 아키텍처 기반의 일본어 TTS입니다. 습진 및 백선 피부 질환 데이터 세트: 의료 영상 분류 및 전이 학습을 지원합니다.

온라인 튜토리얼 | 600개 이상의 언어 지원, 샤오미 오픈 소스 OmniVoice: 단 3~10초의 참조 오디오만으로 음성 복제 구현

데이터셋 개요 | NVIDIA, Nemotron 데이터셋 공개: 10TB 이상의 토큰과 4천만 개의 학습 샘플을 포함하며, 수학적 추론, 코드 생성 및 다국어 대화 학습을 지원합니다.

구글이 혼합 테이블형 데이터를 위한 제로샷 예측 모델인 TabFM-1.0.0-PyTorch를 출시했습니다. NVIDIA는 수천만 개의 문자를 포함하는 다국적 합성 문자 데이터셋을 오픈소스로 공개했습니다.

무료 CPU 튜토리얼 | 8,800개의 별점을 획득한 Supertonic-3 TTS 모델은 약 9,900만 개의 파라미터만으로 31개 언어를 지원합니다.

ICML 26 우수 논문: 칭화대 JustGRPO, dLLM 추론 병목 현상 극복; 단순 지시 테스트에 작별을 고하다: Agents Last Exam, 지능형 에이전트의 장기적인 전문 역량을 종합적으로 평가.

로컬에서 실행 가능한 개인정보 탐지 모델인 Privacy Filter는 저비용으로 고품질 개인정보 필터링을 구현합니다. 완전 오픈 소스 프로젝트이며, 8만 건 이상의 경기가 포함된 Transfermarkt 구조화된 축구 데이터셋을 지원합니다.

온라인 튜토리얼 | 최대 4배 빠른 생성 속도: DiffusionGemma는 다중 라운드 병렬 노이즈 제거 기반의 지속적인 최적화를 통해 전체 텍스트 블록을 동시에 생성할 수 있습니다.

관련 뉴스

이모티콘으로 음성 생성을 제어할 수 있을까요? Irodori-TTS는 RF-DiT 아키텍처 기반의 일본어 TTS입니다. 습진 및 백선 피부 질환 데이터 세트: 의료 영상 분류 및 전이 학습을 지원합니다.

온라인 튜토리얼 | 600개 이상의 언어 지원, 샤오미 오픈 소스 OmniVoice: 단 3~10초의 참조 오디오만으로 음성 복제 구현

데이터셋 개요 | NVIDIA, Nemotron 데이터셋 공개: 10TB 이상의 토큰과 4천만 개의 학습 샘플을 포함하며, 수학적 추론, 코드 생성 및 다국어 대화 학습을 지원합니다.

구글이 혼합 테이블형 데이터를 위한 제로샷 예측 모델인 TabFM-1.0.0-PyTorch를 출시했습니다. NVIDIA는 수천만 개의 문자를 포함하는 다국적 합성 문자 데이터셋을 오픈소스로 공개했습니다.

무료 CPU 튜토리얼 | 8,800개의 별점을 획득한 Supertonic-3 TTS 모델은 약 9,900만 개의 파라미터만으로 31개 언어를 지원합니다.

ICML 26 우수 논문: 칭화대 JustGRPO, dLLM 추론 병목 현상 극복; 단순 지시 테스트에 작별을 고하다: Agents Last Exam, 지능형 에이전트의 장기적인 전문 역량을 종합적으로 평가.

로컬에서 실행 가능한 개인정보 탐지 모델인 Privacy Filter는 저비용으로 고품질 개인정보 필터링을 구현합니다. 완전 오픈 소스 프로젝트이며, 8만 건 이상의 경기가 포함된 Transfermarkt 구조화된 축구 데이터셋을 지원합니다.

온라인 튜토리얼 | 최대 4배 빠른 생성 속도: DiffusionGemma는 다중 라운드 병렬 노이즈 제거 기반의 지속적인 최적화를 통해 전체 텍스트 블록을 동시에 생성할 수 있습니다.