5ヶ月前

概要

従来の研究では、スタイル駆動型生成と主題駆動型生成が互いに排他的なタスクとして扱われることが一般的である。前者はスタイルの類似性を重視するのに対し、後者は主題の一貫性を重視するため、両者は明確な対立関係に置かれていた。本研究では、これら二つの目的が、最終的にコンテンツとスタイルの分離および再構成という、スタイル駆動型研究における長年のテーマに帰着することに着目し、それらを単一の枠組みで統合可能であると主張する。これを実現するために、我々は「Unified Style-Subject Optimized（USO）」というカスタマイズモデルを提案する。まず、コンテンツ画像、スタイル画像、およびそれらに対応するスタイル化されたコンテンツ画像から構成される大規模な三つ組データセットを構築した。次に、スタイル特徴の整合性を高める「スタイル整合訓練」と、コンテンツとスタイルを分離する「コンテンツ-スタイル分離訓練」という二つの補完的な目的を併用した、分離学習スキームを導入した。さらに、モデル性能を向上させるために、「スタイル報酬学習（Style Reward Learning, SRL）」と呼ばれる報酬学習枠組みを導入した。最後に、複数の指標に基づいてスタイル類似性と主題忠実性を同時に評価できる、初めてのベンチマーク「USO-Bench」を公開した。広範な実験により、USOがオープンソースモデルの中で、主題の一貫性およびスタイル類似性の両面において最先端の性能を達成することが確認された。コードおよびモデル：https://github.com/bytedance/USO

ソースPDF