7일 전
변분 오토인코더 내에서 가우시안 프로세스를 활용한 비디오 시퀀스의 다중 특성 분리
Sarthak Bhagat, Shagun Uppal, Zhuyun Yin, Nengli Lim

초록
우리는 비디오 시퀀스에서 비지도 학습을 통해 분리된 표현을 학습하기 위해 잠재 공간을 가우시안 프로세스(GP)로 모델링하는 변분 오토인코더인 MGP-VAE(Multi-disentangled-features Gaussian Processes Variational AutoEncoder)를 제안한다. 기존 연구를 개선하기 위해 정적 또는 동적 특징 여러 가지를 동시에 분리할 수 있는 프레임워크를 구축하였다. 구체적으로 각 독립 채널에서 프레임 간 상관 구조를 강제하기 위해 분수 브라운 운동(fBM)과 브라운 다리(BB)를 사용하며, 이러한 구조를 조절함으로써 데이터 내 다양한 변동 요인을 포착할 수 있음을 보여준다. 우리는 세 가지 공개된 데이터셋을 대상으로 실험을 수행하여 제안하는 표현의 품질을 입증하였으며, 비디오 예측 과제를 통해 성능 향상을 정량적으로 평가하였다. 또한, 데이터 다양체의 곡률을 고려한 새로운 지오데식 손실 함수를 도입하여 학습 성능을 향상시켰다. 실험 결과, 개선된 표현과 새로운 손실 함수의 조합이 MGP-VAE가 기존 베이스라인보다 비디오 예측 성능에서 우수함을 보였다.