HyperAIHyperAI

Command Palette

Search for a command to run...

CSD-VAR: 可視自己回帰モデルにおける内容-スタイル分解

Quang-Binh Nguyen Minh Luu Quang Nguyen Anh Tran Khoi Nguyen

概要

単一の画像からコンテンツとスタイルを分離する技術、すなわちコンテンツ・スタイル分解(Content-Style Decomposition, CSD)は、抽出されたコンテンツの再文脈化と抽出されたスタイルのスタイリゼーションを可能にし、視覚合成における創造的な柔軟性を高めます。最近のパーソナライゼーション手法では、明示的なコンテンツ・スタイルの分解が探索されてきましたが、依然として拡散モデル向けに特化しています。一方で、次スケール予測パラダイムを持つビジュアル自己回帰モデリング(Visual Autoregressive Modeling, VAR)が有望な代替手段として注目を集めています。この手法は拡散モデルと同等の性能を達成しており、本論文ではVARをCSDの生成フレームワークとして活用し、そのスケールごとの生成プロセスを利用してより優れた分離を実現することを目指します。この目的のために、私たちはCSD-VARという新しい方法を提案します。この方法には3つの主要な革新が導入されています。(1) スケールに応じた交互最適化戦略で、コンテンツとスタイル表現をそれぞれのスケールに合わせてアラインメントすることで分離性能を向上させる、(2) SVDに基づく修正手法で、コンテンツがスタイル表現に漏れ出る問題を軽減する、(3) コンテンツ同一性の保存を強化するための拡張キー・バリュー(Augmented Key-Value, K-V)メモリです。このタスクのベンチマークとして、私たちはCSD-100というデータセットを導入しました。これはコンテンツ・スタイル分解のために特別に設計され、多様な主題がさまざまな芸術的スタイルで描かれている特徴を持っています。実験結果は、CSD-VARが以前の手法よりも優れており、より高いコンテンツ保存性能とスタイリゼーション忠実度を達成していることを示しています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています