11일 전

LASER: 강건성 향상을 위한 입술 랜드마크 보조 화자 감지

Le Thien Phuc Nguyen, Zhuoran Yu, Yong Jae Lee
LASER: 강건성 향상을 위한 입술 랜드마크 보조 화자 감지
초록

활동 발화자 검출(Active Speaker Detection, ASD)은 복잡한 시각적 장면에서 말하고 있는 개인을 식별하는 것을 목표로 한다. 인간은 입모양과 음성을 매칭함으로써 말하는 사람을 쉽게 인식할 수 있지만, 현재의 ASD 모델들은 이러한 대응 관계를 효과적으로 확립하지 못해, 음성과 입모양이 비동기화된 경우 비발화 상태를 잘못 분류하는 문제가 있다. 이 제한을 해결하기 위해 우리는 강건성 향상을 위한 입술 랜드마크 보조 발화자 검출 기법(Lip landmark Assisted Speaker dEtection for Robustness, LASER)을 제안한다. 기존의 모델들이 얼굴 프레임에만 의존하는 것과 달리, LASER는 훈련 과정에서 입술 움직임에 명시적으로 초점을 맞추기 위해 입술 랜드마크를 통합한다. 구체적으로, 얼굴 트랙을 입력으로 받아, 가벼운 검출기( lightweight detector)를 사용하여 프레임 단위의 시각적 특징과 입술 랜드마크의 2차원 좌표를 추출한다. 이러한 좌표는 밀도 높은 특징 맵으로 인코딩되어 입술의 위치에 대한 공간적 및 구조적 정보를 제공한다. 또한, 저해상도, 가림, 극단적인 시점 등 어려운 조건에서 랜드마크 검출기가 실패할 수 있음을 인지하여, 입술 인식 특징과 얼굴만을 기반으로 한 특징 간 예측 일관성을 강화하는 부가적 일관성 손실(consistency loss)을 도입함으로써, 입술 데이터가 누락된 경우에도 신뢰할 수 있는 성능을 유지할 수 있도록 한다. 다양한 데이터셋을 대상으로 수행한 광범위한 실험 결과, LASER는 특히 음성과 영상이 비동기화된 상황에서 최신 기술을 능가하며, 실제 영상 환경에서도 강건한 성능을 입증하였다. 코드는 다음 URL에서 제공된다: \url{https://github.com/plnguyen2908/LASER_ASD}.

LASER: 강건성 향상을 위한 입술 랜드마크 보조 화자 감지 | 최신 연구 논문 | HyperAI초신경