Speech Separation
음성 분리란 혼합된 음성 신호에서 모든 겹치는 음성 소스를 추출하는 작업을 의미합니다. 소스 분리 문제의 특정 시나리오 중 하나인 음성 분리는 음악이나 노이즈와 같은 다른 간섭 신호가 아닌 여러 명의 동시에 발생하는 음성 신호를 주로 분리하는 데 초점을 맞춥니다. 이 기술은 다중 화자 환경에서의 음성 인식, 청각 보조 장치, 오디오 편집 등에 중요한 응용 가치를 가지고 있습니다.
GRID corpus (mixed-speech)
iKala
U-Net
Libri10Mix
Libri15Mix
Hungarian PIT
Libri20Mix
Libri2Mix
MossFormer2 (w speed perturb)
Libri5Mix
Hungarian PIT
LibriCSS
Conformer (large)
LRS2
TDFNet-small
LRS3
IIANet
TCD-TIMIT corpus (mixed-speech)
VoxCeleb2
RTFS-Net-4
WHAM!
SepReformer-L + DM
WHAMR!
TF-Locoformer (M)
WSJ0-2mix
SepReformer-L
WSJ0-2mix-16k
MossFormer2
WSJ0-3mix
Gated DualPathRNN
WSJ0-4mix
WSJ0-5mix
Gated DualPathRNN