깊은 클러스터링: 분할 및 분리 위한 차별적 임베딩

우리는 "딥 클러스터링(Deep Clustering)"이라고 부르는 딥 러닝 프레임워크를 통해 음원 분리 문제를 다룹니다. 신호나 마스킹 함수를 직접 추정하는 대신, 우리는 딥 네트워크를 훈련시켜 훈련 데이터에서 주어진 파티션 라벨을 구분할 수 있는 스펙트로그램 임베딩을 생성하도록 합니다. 이전의 딥 네트워크 접근 방식은 학습 능력과 속도 측면에서 큰 장점을 제공했지만, 클래스에 독립적으로 신호를 분리하는 방법이 명확하지 않았습니다. 반면, 스펙트럼 클러스터링 접근 방식은 분할해야 하는 클래스와 항목 수에 대해 유연하지만, 딥 네트워크의 학습 능력과 속도를 활용하는 방법이 불명확했습니다. 양쪽의 장점을 모두 얻기 위해, 우리는 이상적인 쌍별 친화도 행렬의 저차원 근사치를 클래스에 독립적으로 생성하도록 임베딩을 훈련시키는 목적 함수를 사용합니다. 이는 스펙트럼 인수분해의 높은 비용을 피하고, 간단한 클러스터링 방법으로 처리하기 쉬운 컴팩트한 클러스터를 생성합니다. 따라서 세그멘테이션이 임베딩에 암시적으로 인코딩되어 있으며, 클러스터링을 통해 "디코딩"될 수 있습니다.예비 실험 결과는 제안된 방법이 말소리를 분리할 수 있음을 보여줍니다: 두 화자 혼합 신호의 스펙트로그램 특징으로 훈련된 후, 검증 세트의 화자 혼합 신호로 테스트하면 마스킹 함수를 추론하여 신호 품질을 약 6dB 개선시킬 수 있습니다. 우리는 모델이 두 화자 혼합 신호로만 훈련되었음에도 불구하고 세 화자 혼합 신호로 일반화될 수 있음을 보였습니다. 이 프레임워크는 클래스 라벨 없이 사용할 수 있으므로 다양한 종류의 소리 유형에 대해 훈련될 가능성이 있으며, 새로운 소스로 일반화될 수 있습니다. 우리는 미래 연구가 마이크 배열 방법뿐만 아니라 이미지 세그멘테이션 및 기타 영역으로 확장되면서 임의의 소리를 세그멘테이션하는 데 이바지하길 기대합니다.