Command Palette
Search for a command to run...
Huijie Liu Shuhao Cui Haoxiang Cao Shuai Ma Kai Wu Guoliang Kang

要約
創造的な視覚スタイル化は芸術的表現の基盤を成すが、新規かつ一貫性のある視覚スタイルを生成することは依然として大きな課題である。従来の生成的手法は、長大なテキストプロンプトや参照画像、あるいはパラメータ効率的なファインチューニングを用いてスタイル認識型画像生成を導くことが一般的であるが、これらはしばしばスタイルの一貫性の欠如、創造性の制限、および複雑なスタイル表現の扱いに困難を抱えている。本論文では、「スタイルは一つの数値コードに値する」という観点を提示し、数値的なスタイルコードのみを入力として、新規かつ一貫性のある視覚スタイルを持つ画像を生成するという新たなタスク「コードからスタイルへの画像生成(code-to-style image generation)」を導入する。これまでこの分野は主に産業界(例:Midjourney)によってのみ研究されてきたが、学術界からのオープンソースな研究は存在しなかった。このギャップを埋めるために、我々はこのタスクにおける初のオープンソース手法であるCoTyleを提案する。具体的には、まず画像の集合から離散的なスタイルコードブックを学習し、スタイル埋め込み(style embeddings)を抽出する。これらの埋め込みを条件として、テキストから画像への拡散モデル(T2I-DM)を用いてスタイル化された画像を生成する。その後、離散的なスタイル埋め込み上に自己回帰型のスタイル生成器を学習し、それらの分布をモデル化することで、新たなスタイル埋め込みの合成を可能にする。推論時には、スタイル生成器が数値的なスタイルコードを一意のスタイル埋め込みにマッピングし、その埋め込みがT2I-DMを制御して対応するスタイルの画像を生成する。既存手法と異なり、本手法は極めてシンプルかつ多様性に富み、最小限の入力から再現可能な広大なスタイル空間を開放する。広範な実験により、CoTyleが数値コードを効果的にスタイルコントローラーに変換することを検証し、本研究の主張である「スタイルは一つのコードに値する」を裏付けている。