2달 전

MTCAE-DFER: 다중 작업 연속 오토인코더를 이용한 동적 얼굴 표정 인식

Xiang, Peihao ; Wu, Kaida ; Lin, Chaohao ; Bai, Ou
MTCAE-DFER: 다중 작업 연속 오토인코더를 이용한 동적 얼굴 표정 인식
초록

본 논문은 다이나믹 얼굴 표현 인식을 위한 오토인코더 기반의 다중태스크 학습(Multi-Task Learning, MTL) 프레임워크의 캐스케이드 네트워크 분지를 확장합니다. 이를 위해 Multi-Task Cascaded Autoencoder for Dynamic Facial Expression Recognition (MTCAE-DFER)를 제안합니다. MTCAE-DFER는 Vision Transformer (ViT) 아키텍처를 기반으로 하며, Transformer의 디코더 개념을 활용하여 멀티헤드 어텐션 모듈을 재구성하는 플러그 앤 플레이 캐스케이드 디코더 모듈을 구축합니다. 이전 태스크의 디코더 출력은 로컬 다이나믹 특성을 나타내는 쿼리(Q)로 사용되며, Video Masked Autoencoder (VideoMAE) 공유 인코더 출력은 글로벌 다이나믹 특성을 나타내는 키(K)와 값(V)으로 사용됩니다. 이러한 설정은 관련 태스크 간에 글로벌과 로컬 다이나믹 특성 간의 상호작용을 용이하게 합니다. 또한, 본 제안은 복잡한 대형 모델의 과적합을 완화하는 것을 목표로 합니다. 우리는 오토인코더 기반의 다중태스크 캐스케이드 학습 접근법을 이용하여 동적 얼굴 검출과 동적 얼굴 랜드마크가 동적 얼굴 표현 인식에 미치는 영향을 탐색하며, 이는 모델의 일반화 능력을 향상시킵니다. 다양한 공개 데이터셋에서 수행된 광범위한 절삭 실험과 최신(SOTA) 방법들과의 비교를 통해 MTCAE-DFER 모델의 강건성과 관련 태스크들 사이에서 글로벌-로컬 다이나믹 특성 상호작용의 효과성이 입증되었습니다.