17일 전

정적에서 동적까지: 영상 내 표정 인식을 위한 랜드마크 인지 이미지 모델의 적응

Yin Chen, Jia Li, Shiguang Shan, Meng Wang, Richang Hong
정적에서 동적까지: 영상 내 표정 인식을 위한 랜드마크 인지 이미지 모델의 적응
초록

야외에서의 동적 얼굴 표정 인식(DFER)은 여전히 데이터 제한으로 인해 어려움을 겪고 있다. 예를 들어, 자세, 가림, 조명 등의 다양성과 양이 부족하며, 얼굴 표정 자체의 본질적인 모호성도 문제로 작용한다. 반면 정적 얼굴 표정 인식(SFER)은 현재 더 높은 성능을 보이며, 풍부한 고품질 학습 데이터를 활용할 수 있다는 장점이 있다. 또한 DFER의 외형적 특징과 동적 종속성은 여전히 거의 탐색되지 않은 상태이다. 이러한 도전 과제를 해결하기 위해, 기존 SFER 지식과 추출된 얼굴 랜드마크 인식 특징에 암묵적으로 포함된 동적 정보를 활용하는 새로운 정적에서 동적 모델(S2D)을 제안한다. 이를 통해 DFER 성능을 크게 향상시킬 수 있다. 먼저, 표준 비전 트랜스포머(ViT)와 다중 시점 보완 프롬프터(MCPs)만을 사용하여 SFER를 위한 이미지 모델을 구축하고 학습시킨다. 이후 이 이미지 모델에 시계열 모델링 어댑터(TMAs)를 삽입함으로써 DFER를 위한 비디오 모델(S2D)을 구축한다. MCPs는 외부 얼굴 랜드마크 검출기로 추론된 랜드마크 인식 특징을 통해 얼굴 표정 특징을 강화하며, TMAs는 얼굴 표정의 동적 변화 관계를 포착하고 모델링함으로써 사전 학습된 이미지 모델을 비디오 데이터에 효과적으로 확장한다. 특히 MCPs와 TMAs는 원래 이미지 모델에 비해 학습 가능한 파라미터를 10% 미만으로만 추가한다. 더불어, 모호한 감정 레이블이 초래하는 부정적 영향을 줄이기 위해 각 감정 카테고리에 대한 참조 샘플(감정 기준점, Emotion-Anchors)을 기반으로 한 새로운 자기 교사 손실(Self-Distillation Loss)을 제안한다. 이는 S2D 모델의 성능을 추가로 향상시킨다. 주요 SFER 및 DFER 데이터셋에서 수행한 실험 결과, 본 연구는 최고 성능(SOTA)을 달성하였다.

정적에서 동적까지: 영상 내 표정 인식을 위한 랜드마크 인지 이미지 모델의 적응 | 최신 연구 논문 | HyperAI초신경