10 days ago
CSD-VAR:视觉自回归模型中的内容-风格分解
Quang-Binh Nguyen, Minh Luu, Quang Nguyen, Anh Tran, Khoi Nguyen

摘要
从单张图像中分离内容和风格,即内容-风格分解(Content-Style Decomposition, CSD),使得提取的内容可以重新上下文化,提取的风格可以进行再风格化,从而在视觉合成中提供了更大的创意灵活性。尽管最近的个性化方法已经探索了显式内容风格的分解,但这些方法仍然主要针对扩散模型。与此同时,基于下一尺度预测范式的视觉自回归建模(Visual Autoregressive Modeling, VAR)作为一种有前景的替代方案崭露头角,其性能与扩散模型相当。在本文中,我们探讨了将VAR作为CSD的生成框架,并利用其按尺度生成的过程来提高解耦效果。为此,我们提出了CSD-VAR,这是一种引入了三项关键创新的新方法:(1) 一种尺度感知交替优化策略,通过将内容和风格表示与其相应的尺度对齐来增强分离效果;(2) 基于奇异值分解(Singular Value Decomposition, SVD)的校正方法,以减少内容泄露到风格表示中;(3) 增强键值(Key-Value, K-V)记忆模块,以提高内容身份的保留。为了评估这一任务,我们引入了CSD-100数据集,该数据集专门设计用于内容-风格分解,包含多种主题以不同艺术风格呈现。实验结果表明,CSD-VAR优于先前的方法,在内容保留和风格化保真度方面表现出色。