2달 전

분리 및 재구성: 음성 분리를 위한 비대칭 인코더-디코더

Ui-Hyeop Shin; Sangyoun Lee; Taehan Kim; Hyung-Min Park
분리 및 재구성: 음성 분리를 위한 비대칭 인코더-디코더
초록

음성 분리에서 시간 영역 접근법은 학습 가능한 인코더로부터 잠재 시퀀스 특성을 추출하여 시간-주파수 영역을 성공적으로 대체하였습니다. 전통적으로, 이 특성은 네트워크의 마지막 단계에서 화자별로 분리되었습니다. 그러나 우리는 직관적인 전략을 제안합니다. 이 전략은 특성 시퀀스를 추가 차원으로 확장하여 화자의 수만큼 더 일찍 분리하는 것입니다. 이를 위해, 인코더와 디코더가 분리 작업에서 서로 다른 처리를 수행하도록 파티셔닝된 비대칭 전략이 제시됩니다. 인코더는 특성을 분석하고, 인코더의 출력은 분리할 화자의 수만큼 나뉩니다. 이후, 가중치 공유 디코더는 화자 간 처리도 수행하면서 분리된 시퀀스를 재구성합니다. 화자 정보에 의존하지 않고, 디코더 내의 가중치 공유 네트워크는 분리 목표를 사용하여 직접 특성을 구분하도록 학습됩니다.또한, 성능 향상을 위해 기존 방법들은 시퀀스 길이를 확장하였으며, 이로 인해 쌍 경로 모델이 도입되었습니다. 쌍 경로 모델은 시퀀스를 조각으로 나누어 매우 긴 시퀀스를 효과적으로 처리합니다. 이를 해결하기 위해, 우리는 조각화와 쌍 경로 처리 없이 긴 시퀀스를 더욱 효율적으로 직접 처리할 수 있는 글로벌 및 로컬 트랜스포머 블록을 소개합니다. 실험 결과는 이러한 비대칭 구조가 효과적임을 보여주었으며, 제안된 글로벌 및 로컬 트랜스포머의 조합이 쌍 경로 구조에서의 조각 간 및 조각 내 처리 역할을 충분히 대체할 수 있음을 입증하였습니다. 결국, 이러한 두 가지 요소를 결합한 제시된 모델은 다양한 벤치마크 데이터셋에서 훨씬 적은 계산량으로 최고 수준의 성능을 달성하였습니다.

분리 및 재구성: 음성 분리를 위한 비대칭 인코더-디코더 | 최신 연구 논문 | HyperAI초신경