
視覚モデルにおける生成的事前学習の問題は、長年にわたり未解決の難問として残ってきました。現在、テキストから画像(T2I)への拡散モデルは、大規模な画像-テキストペアに基づく事前学習により、テキスト入力に一致する高精細な画像生成において優れた性能を発揮しています。この事実から自然に生じる問いは、「拡散モデルは視覚認識タスクに対しても活用可能だろうか?」ということです。本論文では、視覚認識タスクに拡散モデルを効果的に活用するシンプルかつ有効な手法を提案します。本研究の核心的な洞察は、事前学習済みの拡散モデルに学習可能な埋め込み(メタプロンプト)を導入し、認識に適した特徴を抽出することにあります。メタプロンプトの効果は二重に現れます。第一に、T2Iモデルにおけるテキスト埋め込みの直接的な置き換えとして機能し、特徴抽出時にタスクに関連する特徴を活性化します。第二に、抽出された特徴を再配置する手段として用いられ、モデルが現在のタスクに最も関連する特徴に注目できるようにします。さらに、拡散モデルの特性を最大限に活かすため、再帰的な精緻化訓練戦略を設計しました。これにより、より強力な視覚特徴が得られます。複数のベンチマークにおいて広範な実験により、本手法の有効性が検証されました。本手法は、NYU Depth V2およびKITTIデータセットにおける深度推定タスクで新たな記録を達成し、CityScapesデータセットにおけるセマンティックセグメンテーションタスクでも優れた性能を示しました。同時に、ADE20KデータセットにおけるセマンティックセグメンテーションおよびCOCOデータセットにおけるポーズ推定においても、現在の最先端手法と同等の結果を達成しており、本手法の強靭さと汎用性を裏付けています。