16日前

DINOv2:教師なし学習による堅牢な視覚特徴の獲得

Maxime Oquab, Timothée Darcet, Théo Moutakanni, Huy Vo, Marc Szafraniec, Vasil Khalidov, Pierre Fernandez, Daniel Haziza, Francisco Massa, Alaaeldin El-Nouby, Mahmoud Assran, Nicolas Ballas, Wojciech Galuba, Russell Howes, Po-Yao Huang, Shang-Wen Li, Ishan Misra, Michael Rabbat, Vasu Sharma, Gabriel Synnaeve, Hu Xu, Hervé Jegou, Julien Mairal, Patrick Labatut, Armand Joulin, Piotr Bojanowski
DINOv2:教師なし学習による堅牢な視覚特徴の獲得
要約

自然言語処理における大規模データを用いたモデル事前学習に関する最近の進展により、コンピュータビジョン分野にも同様の基盤モデル(foundation models)の構築が可能になった。これらのモデルは、特定の画像分布やタスクに依存せずに汎用的に機能する視覚特徴(all-purpose visual features)を生成することで、あらゆるシステムにおける画像の利用を大幅に簡素化できる。本研究では、既存の事前学習手法、特に自己教師あり学習(self-supervised learning)手法が、多様なデータソースから収集・整理された十分なデータ上で学習された場合、このような汎用的特徴を生成可能であることを示している。既存のアプローチを見直し、さまざまな技術を統合することで、データ量およびモデル規模の両面で事前学習のスケーリングを実現した。技術的貢献の多くは、大規模な学習における速度向上と安定性の確保を目的としている。データ面では、従来の自己教師あり学習研究で一般的に行われる未整理なデータの利用ではなく、専用かつ多様性に富み、整理された画像データセットを自動的に構築するパイプラインを提案した。モデル面では、10億パラメータを有するViTモデル(Dosovitskiy et al., 2020)を学習し、その知識を複数の小型モデルに蒸留(distillation)することで、画像レベルおよびピクセルレベルの多数のベンチマークにおいて、既存の最高性能を誇る汎用的特徴であるOpenCLIP(Ilharco et al., 2021)を上回る性能を達成した。

DINOv2:教師なし学習による堅牢な視覚特徴の獲得 | 最新論文 | HyperAI超神経