15일 전

코르티코-탈라모-코르티칼 회로에 영감을 받은 음성-시각적 음성 분리 모델

Kai Li, Fenghua Xie, Hang Chen, Kexin Yuan, Xiaolin Hu
코르티코-탈라모-코르티칼 회로에 영감을 받은 음성-시각적 음성 분리 모델
초록

청각-시각적 접근법은 시각적 입력을 포함함으로써 최근 음성 분리 기술의 발전에 기초를 마련해왔다. 그러나 청각적 및 시각적 입력을 동시에 활용하는 최적화는 여전히 활발한 연구 주제로 남아 있다. 대뇌피질-하부뇌간-대뇌피질 회로(cortico-thalamo-cortical circuit)에 착안하여, 다양한 감각 모달리티의 처리 메커니즘이 비-레멘스칼 감각 소뇌핵을 통해 상호 조절하는 방식을 모방해, 청각-시각 음성 분리( AVSS)를 위한 새로운 대뇌피질-하부뇌간-대뇌피질 신경망(CTCNet)을 제안한다. 먼저, CTCNet은 별도의 청각 및 시각 하위망을 통해 하향식 방식으로 계층적인 청각 및 시각 표현을 학습하며, 청각 및 시각 피질 영역의 기능을 모방한다. 그 후, 대뇌 피질 영역과 소뇌핵 사이에 존재하는 방대한 연결 구조를 참고하여, 상향식 연결을 통해 소뇌핵 하위망에서 청각 및 시각 정보를 융합한다. 마지막으로, 이 융합된 정보는 다시 청각 및 시각 하위망으로 전달되며, 위의 과정이 여러 번 반복된다. 세 가지 음성 분리 벤치마크 데이터셋에서 수행된 실험 결과에 따르면, CTCNet은 기존 AVSS 기법들에 비해 훨씬 더 낮은 파라미터 수로 뛰어난 성능을 달성하였다. 이러한 결과는 포유류 뇌의 해부학적 연결망을 모방하는 것이 심층 신경망의 발전에 큰 잠재력을 지닌다는 점을 시사한다. 프로젝트 리포지토리는 https://github.com/JusperLee/CTCNet 입니다.

코르티코-탈라모-코르티칼 회로에 영감을 받은 음성-시각적 음성 분리 모델 | 최신 연구 논문 | HyperAI초신경