2ヶ月前

テキスト-イメージアライメントの拡散型知覚への応用

Neehar Kondapaneni; Markus Marks; Manuel Knott; Rogerio Guimaraes; Pietro Perona

要約

拡散モデルは、テキストから画像を生成する能力に優れた生成モデルであり、古典的な機械学習タスクに対する新しい創造的な手法の波を引き起こしています。しかし、これらの生成モデルの知覚的な知識を視覚タスクにどのように活用するか最適な方法はまだ未解決の問題です。特に、拡散バックボーンを視覚タスクに適用する際のプロンプトインターフェースの使用方法が明確ではありません。私たちは、自動生成されたキャプションがテキストと画像の対応関係を改善し、モデルのクロスアテンションマップを大幅に強化し、より良い知覚性能につながることを見出しました。私たちのアプローチは、ADE20Kでの拡散に基づく意味分割とNYUv2での深さ推定における現在の最先端（SOTA）を超える結果を示しています。さらに、私たちの手法はクロスドメイン設定にも一般化します。モデルパーソナライゼーションとキャプション変更を使用してモデルを目標ドメインに合わせることで、非アラインメント基準よりも改善されることが確認されました。Pascal VOCで学習したクロスドメイン物体検出モデルは、Watercolor2Kで最先端（SOTA）の結果を達成しました。Cityscapesで学習したクロスドメインセグメンテーション手法は、Dark Zurich-valとNighttime Drivingで最先端（SOTA）の結果を達成しました。プロジェクトページ: https://www.vision.caltech.edu/tadp/コード: https://github.com/damaggu/TADP

テキスト-イメージ アライメントの拡散型知覚への応用

テキスト-イメージアライメントの拡散型知覚への応用