16日前
対照的チューニング:マスク自動符号化器が忘却するためのわずかな支援
Johannes Lehner, Benedikt Alkin, Andreas Fürst, Elisabeth Rumetshofer, Lukas Miklautz, Sepp Hochreiter

要約
マスク画像モデリング(MIM)手法、特にマスク自動エンコーダ(MAE)は、入力データの豊かな表現を効率的に学習できる。しかし、下流タスクへの適応においては、その豊かな特徴量が物体だけでなく、関連性の低い画像の背景情報も含むため、十分なラベル付きデータが必要となる。これに対して、インスタンス判別(ID)手法は物体に焦点を当てる。本研究では、MIMの効率性とスケーラビリティを活かしつつ、大量のラベルデータが存在しない状況下でも下流分類を可能にするIDの能力を統合する方法を検討する。そのために、近傍対比学習(NNCLR)の目的関数が持つ内在的なクラスタリング特性を活用し、事前に学習されたMAEの最上位層に抽象化を誘導する手法として、マスク自動エンコーダ対比微調整(MAE-CT)を提案する。MAE-CTはラベルを一切使用せずに、豊かな特徴量が物体の意味的クラスタを形成するように微調整する。特に、MAE-CTは手動で設計されたデータ拡張に依存せず、最小限の拡張(クロップおよびフリップ)でさえも用いながら、高い性能を頻繁に達成する。さらに、MAE再訓練と比較して計算コストは最大で10%のオーバーヘッドに抑えられ、計算効率が非常に高い。大規模および超大規模な視覚変換器(ViT)モデルに適用した結果、MAE-CTはImageNet上で学習された従来の自己教師付き手法と比較して、線形プローブ、k-NN分類、低ショット分類精度、および非教師付きクラスタリング精度において優れた性能を示した。特にViT-H/16を用いた場合、線形プローブにおいて82.2%という新たなSOTA(最先端)を達成した。