2달 전

액션 셔플 교대 학습을 이용한 비지도 액션 분할

Jun Li; Sinisa Todorovic
액션 셔플 교대 학습을 이용한 비지도 액션 분할
초록

본 논문은 감독되지 않은 행동 분할에 대해 다룹니다. 이전 연구에서는 비디오의 프레임 수준 시간 구조를 프레임의 시간 위치를 인코딩하는 특성 임베딩을 통해 포착하였습니다. 우리는 이전 연구를 발전시키기 위해, 프레임 수준과 행동 수준의 비디오 구조를 모두 고려하는 새로운 자기 지도 학습(self-supervised learning, SSL) 방법을 제안합니다. 우리의 SSL은 RNN을 사용하여 긍정적이고 부정적인 행동 시퀀스를 인식하도록 훈련시키며, RNN의 은닉층이 새로운 행동 수준 특성 임베딩으로 채택됩니다. 긍정적이고 부정적인 시퀀스는 비디오에서 샘플링된 행동 세그먼트로 구성되며, 전자의 경우 샘플링된 행동 세그먼트가 비디오 내의 시간 순서를 따르고, 후자의 경우 섞여 있습니다. 행동에 대한 감독 정보가 제공되지 않으며 우리의 SSL이 행동 세그먼트에 접근해야 하므로, HMM(Hidden Markov Model)을 명시적으로 행동 길이를 모델링하도록 정의하고 Viterbi 알고리즘을 사용하여 MAP(Maximum A Posteriori) 행동 분할을 추론합니다. 이렇게 얻어진 행동 분할은 우리의 행동 수준 특성 임베딩 추정 및 HMM 업데이트에 의사 지도 데이터(pseudo-ground truth)로 활용됩니다. 우리는 일반화된 EM(Expectation-Maximization) 프레임워크 내에서 위 단계들을 번갈아 수행하며, 이를 통해 수렴성을 보장합니다. 본 방법은 Breakfast, YouTube Instructions, 50Salads 데이터셋에서 평가되었으며, 기존 최신 연구 결과보다 우수한 성능을 보였습니다.

액션 셔플 교대 학습을 이용한 비지도 액션 분할 | 최신 연구 논문 | HyperAI초신경