Command Palette
Search for a command to run...
DiffVox: 사운드 차별화 모델
GPU 컴퓨팅 에어드롭
1. 튜토리얼 소개

DiffVox 프로젝트는 Sony AI, Sony Corporation, 그리고 런던 퀸 메리 대학교의 연구팀이 공동으로 2025년 5월에 발표했습니다. 이 모델의 핵심 기능은 고급 추론 시간 최적화 방법과 혁신적인 가우시안 사전 제약 조건 도입에 있습니다. 이를 통해 원본 사람 음성 녹음을 목표 참조 음성에 근접하고 파라미터 측면에서 전문 믹싱 표준을 충족하는 고품질 오디오로 지능적으로 변환할 수 있습니다. DiffVox는 사람 음성 스타일 변환에 초점을 맞춘 고급 모델이며, 관련 연구 논문으로는 다음과 같은 것들이 있습니다. DiffVox: 보컬 효과 분포를 포착하고 분석하기 위한 미분 가능 모델(DAFx25에서 수신) 및 가우시안 사전 확률을 이용한 보컬 효과 스타일 전송을 위한 추론 시간 최적화 개선(WASPAA 2025에 채택됨)
이 튜토리얼에서는 기본 리소스로 단일 RTX 5090 그래픽 카드를 사용하지만, 최소한 단일 RTX 4090 그래픽 카드를 사용하여 프로그램을 시작할 수 있습니다.
2. 프로젝트 예시

3. 작업 단계
1. 컨테이너를 시작하세요

2. 웹페이지에 접속 후 모델을 이용하실 수 있습니다.
"잘못된 게이트웨이"가 표시되면 모델이 초기화 중임을 의미합니다. 2~3분 정도 기다린 후 페이지를 새로고침하세요. Safari를 사용하는 경우 오디오가 바로 재생되지 않을 수 있으므로 먼저 다운로드해야 합니다.

관련 매개변수 설명
메인 컨트롤러 및 사전 설정
빠른 오디오
- 효과메인 제어판에는 핵심 오디오 처리 기능과 사전 설정 선택 항목이 포함되어 있습니다.
- 설명하다이는 전체 효과 처리 체인의 진입점이며, 모든 효과 모듈의 작업을 조정하는 역할을 합니다.
건조/습윤 비율
- 효과Dry Sound(원음)와 Wet Sound(가공음)의 혼합비율 조절
- 설명하다:
- 0%: 완전히 건조한 오디오로, 원래 사운드만 출력합니다.
- 50%: 건식 및 습식 사운드 밸런스 믹싱
- 100%: 완전히 젖은 사운드, 처리된 사운드만 출력합니다.
- 애플리케이션효과 처리의 강도를 제어하고 과도한 처리를 방지하는 데 사용됩니다.
출력 오디오
- 효과최종 믹스 출력 오디오
- 설명하다모든 효과 처리 및 습식/건식 혼합 후의 완전한 결과입니다.
드라이 오디오
- 효과어떠한 효과도 없는, 가공되지 않은 원시 오디오입니다.
- 설명하다녹음의 원래 특성을 보존하므로 비교나 후처리에 적합합니다.
습식 오디오
- 효과모든 효과 처리 후 젖은 사운드
- 설명하다이퀄라이제이션, 압축, 딜레이, 리버브 등 모든 효과를 포함한 사운드입니다.
사전 설정 선택(1~365)
- 효과사전 설정 효과 라이브러리 선택
- 설명하다:
- 전문적으로 조정된 365개의 효과 사전 설정이 포함되어 있습니다.
- 다양한 음악 스타일과 사운드 특성을 포괄합니다.
- 이는 개인화된 조정을 위한 시작점으로 활용될 수 있습니다.
파라메트릭 이퀄라이저
파라메트릭 EQ
- 효과정확한 톤 조정 도구
- 설명하다여러 개의 필터를 사용하여 특정 주파수 대역을 강화하거나 약화시킴으로써 소리의 스펙트럼 특성을 형성할 수 있습니다.
고역통과필터
- 효과지정된 주파수 이하의 저주파 성분을 제거합니다.
- 애플리케이션:
- 호흡음이나 바람 소리 등 저주파 소음을 제거합니다.
- 흐릿함을 줄이고 선명도를 높입니다.
- 일반적인 설정: 80-120Hz
로우 셸프(저주파 셸프형 이퀄라이저)
- 효과: 모든 저주파의 전반적인 부스트 또는 감쇠
- 애플리케이션:
- 소리의 두께감과 따뜻함을 높입니다.
- 저주파 붐 소리 줄이기
- 일반적인 주파수: 100-250Hz
피크 필터
- 효과특정 주파수 지점에 대한 정확한 조정
- 애플리케이션:
- 공명 피크 제거
- 보컬의 존재감을 강화합니다
- 특정 주파수 대역의 음색 문제 수정
하이 셸프(고주파 셸프형 이퀄라이저)
- 효과모든 고주파의 전반적인 부스트 또는 감쇠
- 애플리케이션:
- 통풍감과 밝기를 높여줍니다
- 거친 고주파를 줄이세요
- 일반적인 주파수: 8-12kHz
빈도
- 효과처리할 중심 주파수를 선택하세요.
- 설명하다: 필터가 작동하는 주파수 지점을 결정합니다.
얻다
- 효과: 주파수 향상 또는 감쇠 정도를 제어합니다.
- 범위-12dB ~ +12dB
- 지금 바로: 이 주파수를 강화하세요
- 음수 값이 주파수를 감쇠시키세요
큐
- 효과: 영향을 받는 주파수 범위의 폭을 제어합니다.
- 설명하다:
- 높은 Q 값영향력 범위가 좁고, 타겟이 명확함
- 낮은 Q 값광범위한 영향, 매끄러운 효과
- 애플리케이션좁은 Q는 정밀한 보정에 사용되고, 넓은 Q는 전반적인 조정에 사용됩니다.
압축기 및 팽창기
압축기 및 팽창기
- 효과다이내믹 레인지 프로세서
- 기능압축기는 동적 범위를 줄이는 반면, 익스텐더는 동적 범위를 늘립니다.
한계점
- 효과압축/확장이 시작되는 임계값 수준을 설정합니다.
- 설명하다:
- 이 수준 이상의 신호는 압축됩니다.
- 이 수준 이하의 신호는 증폭됩니다.
- 범위-60dB ~ 0dB
압축비(Comp.Ratio)
- 효과압축 강도 제어
- 설명하다:
- 2:1가벼운 압박
- 4:1중간 압축
- 10:1강한 압축
- ∞:1리미터 효과
메이크업(이득보상)
- 효과압축 후 레벨 손실에 대한 보상
- 애플리케이션: 압축 후의 부피를 압축 전의 부피와 같게 만듭니다.
공격 시간
- 효과: 압축기가 작동을 시작하는 속도를 제어합니다.
- 설명하다:
- 빠른 시작일시적인 상태를 유지하여 충격을 증가시킵니다.
- 느린 시작순간적인 신호를 부드럽게 하여 더 부드러운 사운드를 만들어냅니다.
- 범위0.1~100ms
출시 시간
- 효과: 압축기가 작동을 멈추는 속도를 제어합니다.
- 설명하다:
- 빨리 풀어줘빠른 회복은 흡입 효과를 가져올 수 있습니다.
- 느린 방출동적 회복 속도가 느려 더 자연스러운 효과를 얻을 수 있습니다.
- 범위50~1000ms
경험 비율
- 효과: 팽창 강도 조절
- 설명하다:
- 1:2신호 레벨은 임계값 아래로 떨어지면 절반으로 줄어듭니다.
- 1:10강력한 확장 기능으로 소음을 효과적으로 줄여줍니다.
- 범위: 0-1 (실제로는 팽창 비율의 역수)
Exp. 임계값
- 효과: 익스텐더의 시작 전압 레벨을 설정합니다.
- 설명하다이 임계값 아래의 신호는 더욱 약화됩니다.
RMS 평균 계수
- 효과: 신호 응답에 대한 압축기의 감도를 제어합니다.
- 설명하다:
- 높은 가치평균 볼륨에 민감하고 반응이 부드럽습니다.
- 낮은 가치즉각적인 피크 값에 민감하며 응답 시간이 빠릅니다.
- 애플리케이션음악 스타일과 필요에 따라 응답 특성을 조정하세요
탁구 지연
핑퐁 지연
- 효과스테레오 지연 효과
- 특징에코는 왼쪽과 오른쪽 채널 사이에서 번갈아 나타납니다.
지연 시간
- 효과: 에코의 시간 간격을 제어합니다.
- 범위100~1000ms
- 애플리케이션:
- 짧은 지연 시간: 공간감과 깊이감이 증가합니다.
- 긴 지연: 눈에 띄는 에코 효과를 생성합니다.
피드백
- 효과에코 반복 횟수 제어
- 설명하다:
- 낮은 피드백약간의 에코
- 높은 피드백반복적인 반복은 자기자극으로 이어질 수 있습니다.
- 범위: 0-1
얻다
- 효과: 딜레이 효과의 볼륨을 조절합니다
- 범위-80dB ~ 0dB
홀수/짝수 지연 팬
- 효과: 홀수 및 짝수 에코의 사운드 이미지 위치를 각각 제어합니다.
- 설명하다:
- -100: 정확히 왼쪽 채널
- 0중앙에
- 100전체 오른쪽 채널
- 애플리케이션3차원 공간 이동 효과를 만들어 보세요
저역 통과 주파수
- 효과지연 에코의 저주파 필터링
- 애플리케이션:
- 자연적 붕괴를 시뮬레이션하는 고주파 손실
- 따뜻하고 거칠지 않은 에코를 만듭니다.
리버브 센드
- 효과: 잔향에 전송되는 지연 신호의 양
- 애플리케이션지연된 에코에 공간감을 더하면 더 자연스러운 효과가 만들어집니다.
FDN 반향
FDN 리버브
- 효과고품질 디지털 리버브 효과
- 특징피드백 지연 네트워크를 기반으로 자연스러운 공간 시뮬레이션을 제공합니다.
톤 보정(PEQ)
- 효과리버브 효과 내부의 이퀄라이저.
- 기능:
- 잔향 꼬리의 주파수 응답 조정
- 리버브의 밝기나 따뜻함을 조절합니다.
- 메인 사운드와 리버브 충돌을 피하세요
붕괴 시간
- 효과잔향의 감쇠 시간 제어
- 설명하다:
- 짧은 감쇠작은 방 효과
- 긴 감쇠홀이나 교회 효과
- 범위0~9초
- 애플리케이션공간의 크기와 요구 사항에 따라 잔향 지속 시간을 조정하세요.
인용 정보
이 프로젝트에 대한 인용 정보는 다음과 같습니다.
@inproceedings{ycy2025diffvox,
title={DiffVox: A Differentiable Model for Capturing and Analysing Vocal Effects Distributions},
author={Chin-Yun Yu and Marco A. Martínez-Ramírez and Junghyun Koo and Ben Hayes and Wei-Hsiang Liao and György Fazekas and Yuki Mitsufuji},
year={2025},
booktitle={Proc. DAFx},
}
@inproceedings{ycy2025ito,
title={Improving Inference-Time Optimisation for Vocal Effects Style Transfer with a Gaussian Prior},
author={Chin-Yun Yu and Marco A. Martínez-Ramírez and Junghyun Koo and Wei-Hsiang Liao and Yuki Mitsufuji and György Fazekas},
year={2025},
booktitle={Proc. WASPAA},
}