12일 전
시각적 발성 인식에 대한 또 다른 관점
{Frederic Precioso, Charles Bouveyron, Giacomo Valenti, Laurent Pilati, Baptiste Pouthier}

초록
표준 시각적 말하기 인식(VSR) 시스템은 원시 픽셀 데이터와 얼굴 특성 간의 사전적 연결 없이 이미지를 직접 입력 특징으로 처리한다. 얼굴 랜드마크가 이미지에서 추출될 때 픽셀 정보는 지능적으로 선별되며, 이는 그래프 노드로 재활용된다. 이러한 노드들의 시간에 따른 변화는 그래프 컨볼루션 네트워크(GCN)를 통해 모델링된다. 그러나 그래프 기반 VSR는 여전히 초기 단계에 있으며, 점의 선택 및 그 상관관계는 여전히 명확하지 않으며, 종종 사전 지식과 수작업 기법에 의존하고 있다. 본 논문에서는 VSR에 대한 그래프 접근법을 탐구하고, 입술 부위를 넘어서는 점 간의 상관관계 학습 능력을 검토한다. 또한 각 얼굴 영역이 시스템 정확도에 기여하는 방식을 분석하여, 더 흩어져 있지만 더 잘 연결된 그래프가 계산적으로 경량화되면서도 정확도를 유지할 수 있음을 입증한다.