2달 전

시각을 넓혀 자가 감독 비디오 학습에 활용하기

Adrià Recasens; Pauline Luc; Jean-Baptiste Alayrac; Luyu Wang; Ross Hemsley; Florian Strub; Corentin Tallec; Mateusz Malinowski; Viorica Patraucean; Florent Altché; Michal Valko; Jean-Bastien Grill; Aäron van den Oord; Andrew Zisserman
시각을 넓혀 자가 감독 비디오 학습에 활용하기
초록

대부분의 성공적인 자기 지도 학습 방법은 데이터에서 추출된 두 개의 독립적인 시각을 일치시키는 데 훈련됩니다. 비디오 분야에서 최신 기술은 이미지 기술에서 영감을 받았으며, 이 두 시각은 유사하게 자르고 증강하여 추출됩니다. 그러나 이러한 방법들은 비디오 영역에서 중요한 요소인 시간(time)을 간과하고 있습니다. 우리는 BraVe라는 비디오를 위한 자기 지도 학습 프레임워크를 소개합니다. BraVe에서는 한 시각이 비디오의 좁은 시간 창에 접근할 수 있고, 다른 시각은 비디오 콘텐츠 전체에 넓게 접근할 수 있습니다. 우리의 모델은 좁은 시각에서 비디오의 일반적인 콘텐츠로 일반화하는 것을 배웁니다. 또한, BraVe는 서로 다른 백본으로 시각을 처리하여 광범위한 시각에 대한 대체 증강 또는 모달리티(예: 광학 흐름, 임의로 컨볼루션된 RGB 프레임, 오디오 또는 그 조합)를 사용할 수 있게 합니다. 우리는 BraVe가 UCF101, HMDB51, Kinetics, ESC-50 및 AudioSet와 같은 표준 비디오 및 오디오 분류 벤치마크에서 자기 지도 표현 학습에서 최신 결과를 달성함을 보여줍니다.

시각을 넓혀 자가 감독 비디오 학습에 활용하기 | 최신 연구 논문 | HyperAI초신경