Command Palette
Search for a command to run...
Shaojin Wu Mengqi Huang Yufeng Cheng Wenxu Wu Jiahe Tian Yiming Luo Fei Ding Qian He

要約
従来の研究では、スタイル駆動型生成と主題駆動型生成は互いに排他的なタスクとして扱われている。前者はスタイルの類似性を重視するのに対し、後者は主題の一貫性を重視するため、両者は明確な対立関係にあるとされている。本研究では、これら二つの目的が、最終的にコンテンツとスタイルの分離および再構成という、スタイル駆動型研究における長年のテーマに帰着することに着目し、それらを単一のフレームワークの下で統合可能であると主張する。この目的のため、我々は「USO(Unified Style-Subject Optimized)」と呼ばれる統合的スタイル・主題最適化カスタマイズモデルを提案する。まず、コンテンツ画像、スタイル画像、およびそれらに対応するスタイル化されたコンテンツ画像から構成される大規模な三項組データセットを構築する。次に、スタイル特徴のアライメントとコンテンツ・スタイルの分離を同時に実現する、二つの補完的な目的——スタイルアライメント学習とコンテンツ・スタイル分離学習——を用いた、分離型学習スキームを導入する。さらに、モデル性能を向上させるために、スタイル報酬学習(SRL: Style Reward Learning)というパラダイムを組み込む。最後に、複数の評価指標を用いてスタイル類似性と主題忠実性を同時に評価できる、初めてのベンチマーク「USO-Bench」を公開する。広範な実験により、USOが、主題一貫性およびスタイル類似性の両面において、オープンソースモデルの中で最先端の性能を達成することが実証された。コードおよびモデル:https://github.com/bytedance/USO