概要

自己教師あり学習は、手動によるデータアノテーションの必要性を排除する可能性を秘めており、モデルが大規模なデータセットやより大きなアーキテクチャへ容易にスケーリングできるようになる。特定のタスクやドメインに特化しないこの学習アプローチは、自然画像から航空画像に至る多様なソースから視覚表現を学習する可能性を有しており、一つのアルゴリズムで実現できる。本技術報告では、シンプルでありながら効果的な戦略を活用することで、このビジョンの実現に向けた大きな一歩となるDINOv3を紹介する。まず、データ準備、設計、最適化に細心の注意を払い、データセットおよびモデルのスケーリングの恩恵を最大限に引き出す。次に、長期間にわたる学習において密度の高い特徴マップの性能劣化という、これまで未解決であった課題を効果的に解決する新手法「グラムアンカリング（Gram anchoring）」を導入する。さらに、後処理戦略を適用することで、モデルの解像度、サイズ、テキストとの整合性に対する柔軟性をさらに高める。その結果、微調整を一切行わず、広範な設定において専門的な最先端モデルを上回る汎用的な視覚基盤モデルを提示する。DINOv3は高品質な密な特徴を生成し、さまざまな視覚タスクにおいて優れた性能を発揮し、従来の自己教師ありおよび弱教師あり基盤モデルを大きく上回っている。また、本研究では、多様なリソース制約や展開環境に対応できるスケーラブルなソリューションを提供することを目的として、DINOv3シリーズの視覚モデル群を公開する。これにより、幅広いタスクおよびデータに対して最先端の性能を実現することを目指す。

ソースPDF