2달 전

다중 작업 다중 모드 자기 감독 학습을 이용한 얼굴 표현 인식

Marah Halawa; Florian Blume; Pia Bideau; Martin Maier; Rasha Abdel Rahman; Olaf Hellwich
다중 작업 다중 모드 자기 감독 학습을 이용한 얼굴 표현 인식
초록

인간의 의사소통은 다중 모드(multi-modal)입니다. 예를 들어, 대면 상호작용은 청각 신호(말소리)와 시각 신호(얼굴 움직임 및 손동작)를 포함합니다. 따라서, 기계 학습을 기반으로 한 얼굴 표정 인식 시스템을 설계할 때 여러 모드를 활용하는 것이 필수적입니다. 또한, 인간의 얼굴 표정을 포착한 비디오 데이터의 양이 계속 증가하고 있으므로 이러한 시스템은 고비용의 주석 없이 원시 비디오 데이터를 활용해야 합니다. 이에 따라 본 연구에서는 야외 환경에서 촬영된 비디오 데이터로부터 얼굴 표정을 인식하기 위해 다중 작업 다중 모드 자기 감독 학습 방법을 사용하였습니다.본 모델은 세 가지 자기 감독 목적 함수(objective functions)를 결합합니다. 첫째, 동일한 비디오의 다양한 데이터 모드를 표현 공간에서 가깝게 끌어당기는 다중 모드 대조 손실(multi-modal contrastive loss)입니다. 둘째, 입력 데이터의 의미 구조를 표현 공간에서 보존하는 다중 모드 클러스터링 손실(multi-modal clustering loss)입니다. 셋째, 다중 모드 데이터 재구성 손실(multi-modal data reconstruction loss)입니다.우리는 세 개의 얼굴 표정 인식 벤치마크에서 이 다중 작업 다중 모드 자기 감독 학습 방법에 대한 종합적인 연구를 수행하였습니다. 이를 위해 우리는 다양한 자기 감독 작업 조합을 통해 학습한 성능을 얼굴 표정 인식 후속 작업(downstream task)에서 검토하였습니다. 우리의 ConCluGen 모델은 CMU-MOSEI 데이터셋에서 여러 다중 모드 자기 감독 및 완전히 지도된 베이스라인(fully supervised baselines)보다 우수한 성능을 보였습니다. 일반적으로 우리의 결과는 다중 모드 자기 감독 작업이 얼굴 표정 인식과 같은 어려운 작업에 대해 큰 성능 향상을 제공하면서 동시에 수동 주석(manual annotations)의 양을 줄일 수 있음을 보여주고 있습니다.우리는 사전 훈련된 모델과 소스 코드를 공개적으로 배포합니다.

다중 작업 다중 모드 자기 감독 학습을 이용한 얼굴 표현 인식 | 최신 연구 논문 | HyperAI초신경