8ヶ月前

概要

テキストから画像への生成モデル（Text-to-image diffusion models）は、高品質な画像の生成と編集において大きな進歩を遂げています。その結果、多くの手法が、分類、セマンティックセグメンテーション、スタイル変換などの下流タスクのために、拡散モデルの特徴量が単一の画像を理解し処理する能力を探求してきました。しかし、これらの特徴量が複数の異なる画像や物体間で何を示すかについては、まだ十分に知られていません。本研究では、安定した拡散（Stable Diffusion, SD）の特徴量をセマンティック対応と密集対応のために利用し、単純な後処理によってSD特徴量が最先端（SOTA）表現と定量的に類似した性能を発揮することを見出しました。興味深いことに、定性的分析ではSD特徴量が既存の表現学習特徴量とは非常に異なる特性を持つことが明らかになりました。例えば、最近公開されたDINOv2は疎だが正確なマッチングを提供しますが、SD特徴量は高品質な空間情報を提供しますが、時々不正確なセマンティックマッチングとなることがあります。私たちは、これらの2つの特徴量の単純な融合が驚くほどよく機能することを示し、最寄り近傍法を使用したゼロショット評価ではベンチマークデータセット（SPair-71k, PF-Pascal, TSSなど）における最先端手法よりも大幅に性能向上することが確認されました。また、これらの対応関係を利用することで2つの画像間でのインスタンス交換など興味深いアプリケーションも可能になることを示しています。

ソースPDF コードを表示