15일 전

IIANet: 음성-시각 음성 분리에 대한 내부 및 상호 모달리티 주의망

Kai Li, Runxuan Yang, Fuchun Sun, Xiaolin Hu
IIANet: 음성-시각 음성 분리에 대한 내부 및 상호 모달리티 주의망
초록

최근 연구는 음성-시각적 음성 분리용 융합 모듈 설계 측면에서 상당한 진전을 이루었다. 그러나 기존 방법들은 주로 청각 및 시각 특징의 단일 시간 규모에서 다모달 융합에 집중하며, 선택적 주의 메커니즘을 도입하지 않는다는 점에서 인간 뇌의 작동 방식과는 극명한 대조를 이룬다. 이러한 문제를 해결하기 위해 본 연구에서는 효율적인 음성-시각 특징 융합을 위한 주의 메커니즘을 활용하는 새로운 모델인 내부 및 상호 주의 네트워크(Intra- and Inter-Attention Network, IIANet)를 제안한다. IIANet는 내부 주의(IntraA) 블록과 상호 주의(InterA) 블록 두 가지 유형의 주의 블록으로 구성되며, 이 중 InterA 블록은 IIANet의 상단, 중간, 하단에 분산 배치된다. 인간 뇌가 다양한 시간 규모에서 관련 정보에 선택적으로 주의를 집중하는 방식을 깊이 영감받아, 이러한 블록들은 각 모달리티에 특화된 특징을 학습할 수 있는 능력을 유지하면서 음성-시각 특징으로부터 서로 다른 의미 정보를 추출할 수 있도록 한다. LRS2, LRS3, VoxCeleb2의 세 가지 표준 음성-시각 분리 벤치마크에서 실시한 종합적인 실험을 통해 IIANet의 효과성이 입증되었으며, 기존 최고 성능 모델들을 능가하면서도 유사한 추론 시간을 유지함을 확인했다. 특히, IIANet의 빠른 버전(IIANet-fast)은 CTCNet 대비 MACs가 단 7%에 불과하며, CPU 기준으로 CTCNet보다 40% 빠르면서도 더 뛰어난 분리 품질을 달성함으로써, 주의 메커니즘이 효율적이고 효과적인 다모달 융합을 위한 큰 잠재력을 지니고 있음을 보여주었다.

IIANet: 음성-시각 음성 분리에 대한 내부 및 상호 모달리티 주의망 | 최신 연구 논문 | HyperAI초신경