HyperAIHyperAI

Command Palette

Search for a command to run...

二つの特徴の物語:安定拡散がDINOを補完してゼロショットセマンティック対応を実現する

Junyi Zhang Charles Herrmann Junhwa Hur Luisa F. Polanía Varun Jampani Deqing Sun Ming-Hsuan Yang

概要

テキストから画像への生成モデル(Text-to-image diffusion models)は、高品質な画像の生成と編集において大きな進歩を遂げています。その結果、多くの手法が、分類、セマンティックセグメンテーション、スタイル変換などの下流タスクのために、拡散モデルの特徴量が単一の画像を理解し処理する能力を探求してきました。しかし、これらの特徴量が複数の異なる画像や物体間で何を示すかについては、まだ十分に知られていません。本研究では、安定した拡散(Stable Diffusion, SD)の特徴量をセマンティック対応と密集対応のために利用し、単純な後処理によってSD特徴量が最先端(SOTA)表現と定量的に類似した性能を発揮することを見出しました。興味深いことに、定性的分析ではSD特徴量が既存の表現学習特徴量とは非常に異なる特性を持つことが明らかになりました。例えば、最近公開されたDINOv2は疎だが正確なマッチングを提供しますが、SD特徴量は高品質な空間情報を提供しますが、時々不正確なセマンティックマッチングとなることがあります。私たちは、これらの2つの特徴量の単純な融合が驚くほどよく機能することを示し、最寄り近傍法を使用したゼロショット評価ではベンチマークデータセット(SPair-71k, PF-Pascal, TSSなど)における最先端手法よりも大幅に性能向上することが確認されました。また、これらの対応関係を利用することで2つの画像間でのインスタンス交換など興味深いアプリケーションも可能になることを示しています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています