HyperAIHyperAI

Command Palette

Search for a command to run...

多タスク画像復元のためのビジョン言語モデルの制御

Ziwei Luo Fredrik K. Gustafsson Zheng Zhao Jens Sjölund Thomas B. Schön

概要

画像言語モデル(例えばCLIP)は、ゼロショットやラベルなし予測の多様な下流タスクにおいて大きな影響を示しています。しかし、画像修復などの低レベル視覚処理では、入力が損傷しているため、その性能は著しく低下します。本論文では、損傷認識型の画像言語モデル(Degradation-Aware Vision-Language Model: DA-CLIP)を提案し、事前学習された画像言語モデルを低レベル視覚タスクに効果的に転移させる方法を提示します。具体的には、DA-CLIPは固定されたCLIP画像エンコーダーを高品質な特徴埋め込みの予測に適応させる追加のコントローラーを訓練します。この埋め込みをクロスアテンションを通じて画像修復ネットワークに統合することで、モデルが高忠実度の画像再構築を学習できるように導きます。また、コントローラー自体も入力の実際の損傷と一致する損傷特徴を出力し、異なる種類の損傷に対する自然な分類器となります。さらに、DA-CLIPの訓練のために合成キャプション付きの混合損傷データセットを作成しました。当手法は、\emph{特定の損傷}と\emph{統一的な}画像修復タスクにおいて最先端の性能を向上させています。これは大規模な事前学習済み画像言語モデルを使用して画像修復を行う有望な方向性を示しています。私たちのコードはhttps://github.com/Algolzw/daclip-uirで公開されています


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています