2달 전

장기 공간-시간 그래프를 활용한 활성화된 화자 검출

Min, Kyle ; Roy, Sourya ; Tripathi, Subarna ; Guha, Tanaya ; Majumdar, Somdeb
장기 공간-시간 그래프를 활용한 활성화된 화자 검출
초록

다중 화자 비디오에서 활성 화자 검출(Active Speaker Detection, ASD)은 효과적인 음향 시각적 특징과 장 시간 창에서의 공간-시간 상관관계를 학습해야 하므로 어려운 과제입니다. 본 논문에서는 이러한 복잡한 과제를 해결할 수 있는 새로운 공간-시간 그래프 학습 프레임워크인 SPELL을 제시합니다. 이를 위해 비디오 프레임 내의 각 사람은 해당 프레임에 대한 고유한 노드로 인코딩됩니다. 한 사람에 해당하는 프레임 간의 노드들은 연결되어 그들의 시간 동역학을 인코딩합니다. 또한 프레임 내의 노드들은 서로 연결되어 사람 간 관계를 인코딩합니다. 따라서 SPELL은 ASD를 노드 분류 과제로 축소시킵니다. 특히, SPELL은 계산적으로 비용이 많이 드는 완전 연결 그래프 신경망을 사용하지 않고도 모든 노드에 대해 장 시간 컨텍스트에서 추론할 수 있습니다. AVA-ActiveSpeaker 데이터셋을 대상으로 한 광범위한 실험을 통해 그래프 기반 표현을 학습함으로써 명시적인 공간 및 시간 구조 덕분에 활성 화자 검출 성능이 크게 향상될 수 있음을 입증하였습니다. SPELL은 이전 최신 연구보다 우수한 성능을 보여주면서도 상당히 낮은 메모리와 계산 자원을 요구합니다. 우리의 코드는 https://github.com/SRA2/SPELL 에서 공개적으로 이용 가능합니다.

장기 공간-시간 그래프를 활용한 활성화된 화자 검출 | 최신 연구 논문 | HyperAI초신경