2달 전
문맥 속의 활성화된 화자
Alcazar, Juan Leon ; Heilbron, Fabian Caba ; Mai, Long ; Perazzi, Federico ; Lee, Joon-Young ; Arbelaez, Pablo ; Ghanem, Bernard

초록
현재의 활성화된 화자 검출 방법은 주로 단일 화자의 단기적인 오디오-비주얼 정보를 모델링하는 데 초점을 맞추고 있습니다. 이 전략은 단일 화자 시나리오에서는 충분히 효과적일 수 있지만, 여러 후보 화자 중 누가 말하고 있는지를 식별하는 작업에서는 정확한 검출을 방해합니다. 본 논문에서는 장기적인 시간 범위에 걸쳐 여러 화자 간의 관계를 모델링하는 새로운 표현인 '활성화된 화자 컨텍스트(Active Speaker Context)'를 소개합니다. 우리의 활성화된 화자 컨텍스트는 구조화된 오디오-비주얼 관찰 집합에서 쌍별 및 시간적 관계를 학습하도록 설계되었습니다. 실험 결과, 구조화된 특징 집합이 이미 활성화된 화자 검출 성능에 긍정적인 영향을 미치는 것으로 나타났습니다. 또한, 제안된 활성화된 화자 컨텍스트가 AVA-ActiveSpeaker 데이터셋에서 기존 최신 기술보다 우수한 성능을 보여주며, mAP (mean Average Precision) 87.1%를 달성하였습니다. 우리는 점진적 제거 연구(ablation studies)를 통해 이 결과가 우리 장기 다중 화자 분석의 직접적인 결과임을 확인하였습니다.