16일 전

자기지도형 비디오 중심 트랜스포머를 이용한 비디오 얼굴 클러스터링

Yujiang Wang, Mingzhi Dong, Jie Shen, Yiming Luo, Yiming Lin, Pingchuan Ma, Stavros Petridis, Maja Pantic
자기지도형 비디오 중심 트랜스포머를 이용한 비디오 얼굴 클러스터링
초록

본 논문은 비디오 중심형 트랜스포머(Video-Centralised Transformer)를 활용한 비디오 내 얼굴 클러스터링을 위한 새로운 방법을 제안한다. 기존 연구들은 프레임 수준의 표현을 학습하기 위해 대조 학습(contrastive learning)을 주로 사용하고, 시간 차원에 따라 특징을 평균 풀링(average pooling)하는 방식을 채택해왔다. 그러나 이러한 접근 방식은 복잡한 비디오 동적 특성을 충분히 포착하지 못할 수 있다. 또한 최근 비디오 기반 대조 학습에서의 진전에도 불구하고, 비디오 얼굴 클러스터링 작업에 유리한 자기지도형 클러스터링 친화적 얼굴 표현을 학습하는 연구는 여전히 부족한 실정이다. 이러한 한계를 극복하기 위해 본 연구는 트랜스포머를 활용하여 비디오 수준의 표현을 직접 학습함으로써 비디오 내 얼굴의 시간적 변화 특성을 더 잘 반영할 수 있도록 하였으며, 동시에 트랜스포머 모델을 훈련하기 위한 비디오 중심형 자기지도형 프레임워크를 제안한다. 또한, 기존 얼굴 클러스터링 관련 연구에서 다뤄지지 않았던, 급속히 부상하고 있는 이고세트릭(egocentric) 비디오 내 얼굴 클러스터링 문제를 탐구한다. 이를 위해 본 연구는 처음으로 대규모 이고세트릭 비디오 얼굴 클러스터링 데이터셋인 EasyCom-Clustering을 제안하고 공개한다. 제안한 방법은 널리 사용되는 Big Bang Theory(BBT) 데이터셋과 새로 제안된 EasyCom-Clustering 데이터셋 모두에서 평가되었으며, 결과적으로 두 벤치마크에서 기존 최고 성능(SOTA) 방법들을 모두 상회하는 성능을 보이며, 얼굴 비디오에 대한 자기주의적(self-attentive) 이해 능력을 입증하였다.

자기지도형 비디오 중심 트랜스포머를 이용한 비디오 얼굴 클러스터링 | 최신 연구 논문 | HyperAI초신경