16일 전

마스킹된 특징 예측을 통한 자기지도 시각 사전 훈련

Chen Wei, Haoqi Fan, Saining Xie, Chao-Yuan Wu, Alan Yuille, Christoph Feichtenhofer
마스킹된 특징 예측을 통한 자기지도 시각 사전 훈련
초록

비디오 모델의 자체 학습 전처리를 위한 마스킹된 특징 예측(Masked Feature Prediction, MaskFeat)을 제안한다. 본 방법은 입력 시퀀스의 일부를 무작위로 마스킹한 후, 마스킹된 영역의 특징을 예측하는 방식이다. 우리는 다섯 가지 다른 유형의 특징을 조사하였으며, 수작업으로 설계된 특징 기술자인 방향성 기울기 히스토그램(Histograms of Oriented Gradients, HOG)이 성능과 효율성 측면에서 특히 우수한 성능을 보였다. HOG에서의 국소 대비 정규화가 우수한 결과를 얻는 데 필수적임을 관찰하였으며, 이는 이전의 시각 인식에 HOG를 활용한 연구들과 일치하는 결과이다. 본 방법은 풍부한 시각 지식을 학습하고 대규모 Transformer 기반 모델의 성능을 향상시킬 수 있다. 추가적인 모델 가중치나 감독 신호 없이, 레이블이 없는 비디오 데이터로 사전 학습된 MaskFeat는 Kinetics-400에서 MViT-L 기준으로 86.7%, Kinetics-600에서 88.3%, Kinetics-700에서 80.4%, AVA에서 39.8 mAP, SSv2에서 75.0%의 기록적인 성능을 달성하였다. MaskFeat는 이미지 입력에도 일반화 가능하며, 단일 프레임을 가진 비디오로 해석할 수 있으며, ImageNet에서 경쟁력 있는 성능을 보였다.

마스킹된 특징 예측을 통한 자기지도 시각 사전 훈련 | 최신 연구 논문 | HyperAI초신경