2달 전

Egocentric Deep Multi-Channel Audio-Visual Active Speaker Localization 이고중심적 딥 멀티채널 오디오-비주얼 활성화된 화자 위치 추정

Jiang, Hao ; Murdock, Calvin ; Ithapu, Vamsi Krishna

초록

증강현실 장치는 인간의 인식을 향상시키고 복잡한 대화 환경에서 다른 보조 기능을 가능하게 할 잠재력을 가지고 있습니다. 이러한 사회적 상호작용을 이해하기 위해 필요한 오디오-비주얼 맥락을 효과적으로 포착하려면, 장치 착용자와 주변 사람들의 음성 활동을 감지하고 위치를 파악하는 것이 첫 번째로 필요합니다. 이러한 작업은 자기중심적 특성 때문에 어려움이 따릅니다: 착용자의 머리 움직임으로 인해 모션 블러가 발생할 수 있으며, 주변 사람들은 시야에서 어려운 각도로 나타날 수 있고, 가림 현상, 시각적 혼란, 오디오 노이즈 및 조명이 좋지 않은 상황이 있을 수 있습니다. 이러한 조건 하에서 이전 최신의 활성 발화자 감지 방법들은 만족스러운 결과를 제공하지 못했습니다. 대신 우리는 비디오와 다중 채널 마이크 배열 오디오를 모두 사용하여 새로운 설정에서 이 문제에 접근하였습니다. 우리는 강력한 음성 활동 감지와 위치 파악 결과를 제공할 수 있는 새로운 엔드투엔드 딥러닝 접근법을 제안합니다. 이전 방법들과 달리, 우리의 방법은 카메라 시야 외에도 구면 상 모든 가능한 방향에서 활성 발화자를 위치 파악하며, 동시에 장치 착용자의 음성 활동을 감지합니다. 실험 결과, 제안된 방법이 우수한 성능을 보이며 실시간으로 실행될 수 있고 노이즈와 혼란에 대해 강건함을 입증하였습니다.