HyperAIHyperAI

Command Palette

Search for a command to run...

DINOv2:教師なし学習による堅牢な視覚特徴の獲得

概要

自然言語処理における大規模データを用いたモデル事前学習に関する最近の進展により、コンピュータビジョン分野にも同様の基盤モデル(foundation models)の構築が可能になった。これらのモデルは、特定の画像分布やタスクに依存せずに汎用的に機能する視覚特徴(all-purpose visual features)を生成することで、あらゆるシステムにおける画像の利用を大幅に簡素化できる。本研究では、既存の事前学習手法、特に自己教師あり学習(self-supervised learning)手法が、多様なデータソースから収集・整理された十分なデータ上で学習された場合、このような汎用的特徴を生成可能であることを示している。既存のアプローチを見直し、さまざまな技術を統合することで、データ量およびモデル規模の両面で事前学習のスケーリングを実現した。技術的貢献の多くは、大規模な学習における速度向上と安定性の確保を目的としている。データ面では、従来の自己教師あり学習研究で一般的に行われる未整理なデータの利用ではなく、専用かつ多様性に富み、整理された画像データセットを自動的に構築するパイプラインを提案した。モデル面では、10億パラメータを有するViTモデル(Dosovitskiy et al., 2020)を学習し、その知識を複数の小型モデルに蒸留(distillation)することで、画像レベルおよびピクセルレベルの多数のベンチマークにおいて、既存の最高性能を誇る汎用的特徴であるOpenCLIP(Ilharco et al., 2021)を上回る性能を達成した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています