17日前

ViC-MAE:対比マスク自動符号化器を用いた画像および動画からの自己教師付き表現学習

Jefferson Hernandez, Ruben Villegas, Vicente Ordonez
ViC-MAE:対比マスク自動符号化器を用いた画像および動画からの自己教師付き表現学習
要約

我々は、マスク付き自己符号化器(Masked AutoEncoders: MAE)と対照学習(contrastive learning)を統合したモデル「ViC-MAE」を提案する。ViC-MAEは、MAE再構成損失のもとで学習された局所表現をプーリングすることで得られるグローバル表現を用い、画像および動画フレーム間で対照的最適化を適用して訓練される。本研究では、ViC-MAEによって学習された視覚表現が、動画および画像分類タスクの両方において優れた汎化性能を示すことを実証した。特に、最近提案されたOmniMAEと比較して、同じデータセットで学習した場合、ImageNet-1kにおける画像分類タスクでトップ-1精度86%(絶対値+1.3%の向上)を達成し、追加データを用いた学習では87.1%(絶対値+2.4%の向上)を達成した。一方、挑戦的なSomething-Something-v2動画ベンチマークにおいては、トップ-1精度75.9%を記録し、多数の既存手法を上回った。さらに、多様なデータセットから得られる動画と画像を組み合わせて学習する場合でも、ViC-MAEは動画分類と画像分類の両方のベンチマークにおいてバランスの取れた転移学習性能を維持しており、最も優れた教師あり手法に次ぐ僅差の成績を収めた。