HyperAIHyperAI

Command Palette

Search for a command to run...

テキスト-イメージ アライメントの拡散型知覚への応用

Neehar Kondapaneni\textsuperscript1,* Markus Marks\textsuperscript1,* Manuel Knott\textsuperscript1,2,* Rogerio Guimaraes\textsuperscript1 Pietro Perona\textsuperscript1

概要

拡散モデルは、テキストから画像を生成する能力に優れた生成モデルであり、古典的な機械学習タスクに対する新しい創造的な手法の波を引き起こしています。しかし、これらの生成モデルの知覚的な知識を視覚タスクにどのように活用するか最適な方法はまだ未解決の問題です。特に、拡散バックボーンを視覚タスクに適用する際のプロンプトインターフェースの使用方法が明確ではありません。私たちは、自動生成されたキャプションがテキストと画像の対応関係を改善し、モデルのクロスアテンションマップを大幅に強化し、より良い知覚性能につながることを見出しました。私たちのアプローチは、ADE20Kでの拡散に基づく意味分割とNYUv2での深さ推定における現在の最先端(SOTA)を超える結果を示しています。さらに、私たちの手法はクロスドメイン設定にも一般化します。モデルパーソナライゼーションとキャプション変更を使用してモデルを目標ドメインに合わせることで、非アラインメント基準よりも改善されることが確認されました。Pascal VOCで学習したクロスドメイン物体検出モデルは、Watercolor2Kで最先端(SOTA)の結果を達成しました。Cityscapesで学習したクロスドメインセグメンテーション手法は、Dark Zurich-valとNighttime Drivingで最先端(SOTA)の結果を達成しました。プロジェクトページ: https://www.vision.caltech.edu/tadp/コード: https://github.com/damaggu/TADP


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています