LoCoNet: 활성 화자 검출을 위한 장단기 맥락 네트워크

활성화된 발화자 검출(Active Speaker Detection, ASD)은 비디오의 각 프레임에서 누가 말하고 있는지를 식별하는 것을 목표로 합니다. ASD는 두 가지 맥락에서 오디오와 시각적 정보를 추론합니다: 장기적인 동일 발화자 맥락과 단기적인 다중 발화자 맥락. 장기적인 동일 발화자 맥락은 같은 발화자의 시간적 의존성을 모델링하며, 단기적인 다중 발화자 맥락은 같은 장면 내에서의 발화자 간 상호작용을 모델링합니다. 이 두 가지 맥락은 서로 보완적이며 활성화된 발화자를 추론하는 데 도움이 됩니다. 이러한 관찰에 영감을 받아, 우리는 LoCoNet이라는 간단하면서도 효과적인 장단기 맥락 네트워크(Long-Short Context Network)를 제안합니다. LoCoNet은 장거리 의존성을 모델링하는 데 효과적인 자기 주의(self-attention) 메커니즘을 사용하여 장기적인 동일 발화자 맥락을 모델링하고, 로컬 패턴을 포착하는 합성곱 블록(convolutional blocks)을 사용하여 단기적인 다중 발화자 맥락을 모델링합니다.다양한 실험 결과는 LoCoNet이 여러 데이터셋에서 최고 수준의 성능을 달성함을 보여줍니다. AVA-ActiveSpeaker 데이터셋에서는 mAP가 95.2%(+1.1%), Columbia 데이터셋에서는 68.1%(+22%), Talkies 데이터셋에서는 97.2%(+2.8%), Ego4D 데이터셋에서는 59.7%(+8.0%)를 기록하였습니다. 또한, 여러 명의 발화자가 동시에 존재하거나 활성화된 발화자의 얼굴이 같은 장면 내 다른 얼굴들보다 훨씬 작아지는 등 어려운 경우에서도 LoCoNet은 AVA-ActiveSpeaker 데이터셋에서 기존 최고 수준 방법들을 3.4% 이상 앞섰습니다.코드는 https://github.com/SJTUwxz/LoCoNet_ASD 에서 공개될 예정입니다.