2달 전

MAAS: 다중 모드 할당을 이용한 활성화된 발화자 검출

León-Alcázar, Juan ; Heilbron, Fabian Caba ; Thabet, Ali ; Ghanem, Bernard

초록

활성화된 화자 검출은 다중 모드 큐의 견고한 통합을 필요로 합니다. 개별 모드는 해결책을 근사할 수 있지만, 정확한 예측은 오디오와 비주얼 특성을 명시적으로 융합하고 그 시간적 진행 과정을 모델링함으로써만 달성될 수 있습니다. 이 문제의 본질적인 다중 모드 특성을 고려할 때, 현재 방법들은 여전히 단기적인 음향-시각적 특성을 개별 화자에 대해 모델링하고 융합하는 데 초점을 맞추고 있으며, 종종 프레임 단위에서 이루어집니다. 본 논문에서는 문제의 다중 모드 특성을 직접적으로 해결하는 새로운 접근법을 제시하며, 장면 내 잠재적인 화자들의 독립적인 시각적 특성이 이전에 감지된 발화 사건에 할당되는 간단한 전략을 제공합니다. 실험 결과, 단일 프레임에서 구축된 작은 그래프 데이터 구조가 순간적인 음향-시각적 할당 문제를 근사할 수 있음을 보여주었습니다. 또한, 이 초기 그래프의 시간적 확장은 AVA-ActiveSpeaker 데이터셋에서 88.8%의 mAP(median Average Precision)를 달성하여 새로운 최신 기술 수준(state-of-the-art)을 기록하였습니다.