17日前

小規模なファウンデーションモデルの事前学習のための非対称マスク付き蒸留

Zhiyu Zhao, Bingkun Huang, Sen Xing, Gangshan Wu, Yu Qiao, Limin Wang
小規模なファウンデーションモデルの事前学習のための非対称マスク付き蒸留
要約

自己教師付き基礎モデルは、マスク付き自己符号化(masked autoencoding)という事前学習フレームワークの利点により、コンピュータビジョン分野において大きな可能性を示している。これらの基礎モデルの性能にはスケーリングが主要な要因となるが、大規模な基礎モデルはしばしば高い計算コストを伴う。本研究では、下流タスクへの効率的な適応が可能な相対的に小さなVision Transformer(ViT)モデルの事前学習に焦点を当てる。具体的には、モデル圧縮における知識蒸留(knowledge distillation)のアイデアに着想を得て、自己符号化を用いた比較的小規模なモデルの事前学習のための新しい非対称マスク蒸留(Asymmetric Masked Distillation: AMD)フレームワークを提案する。AMDの核となるのは、非対称なマスク戦略の設計である。この戦略では、教師モデルは低いマスク率によりより多くの文脈情報を捉えることができる一方で、学生モデルは依然として高いマスク率を維持する。さらに、教師エンコーダと学生エンコーダの間でカスタマイズされた多層特徴一致(multi-layer feature alignment)を設計し、学生モデルのMAE(Masked Autoencoder)の事前学習を正則化する。AMDの有効性と汎用性を検証するために、ImageMAEおよびVideoMAEの両方に対してAMDを適用し、比較的小規模なViTモデルの事前学習を行った。その結果、ViT-Bモデルを用いてIN1Kデータセットで84.6%の分類精度を達成した。また、Something-in-Something V2データセットでは、ViT-Bモデルで73.3%の精度を達成し、VideoMAEの元のViT-Bモデルと比較して3.7%の向上を示した。さらに、AMDで事前学習したモデルを下流タスクに転移適用した結果、従来のマスク付き自己符号化手法よりも一貫して性能向上が確認された。コードとモデルは、https://github.com/MCG-NJU/AMD にて公開されている。

小規模なファウンデーションモデルの事前学習のための非対称マスク付き蒸留 | 最新論文 | HyperAI超神経