8ヶ月前

概要

大規模なテキストから画像への変換モデルは、AIの進化において画期的な飛躍を達成し、与えられたテキストプロンプトから高品質で多様な画像の合成を可能にしました。しかし、これらのモデルは、特定の参照セット内の被写体の外観を模倣し、異なるコンテクストでそれらの新しい表現を合成する能力に欠けています。本研究では、「パーソナライゼーション」されたテキストから画像への拡散モデルの新しいアプローチを提案します。入力として被写体の数枚の画像のみを与えることで、事前学習済みのテキストから画像への変換モデルを微調整し、その特定の被写体と一意の識別子を結びつけるように学習させます。被写体がモデルの出力ドメインに埋め込まれると、一意の識別子を使用して、異なるシーンで文脈化された新しい写実的な画像を合成することができます。当技術は、モデルに埋め込まれた意味論的先験知識と新しい自己生成クラス固有の先験知識保存損失（autogenous class-specific prior preservation loss）を利用することで、参照画像には存在しないさまざまなシーン、ポーズ、視点、照明条件下での被写体の合成を可能にします。私たちはこの技術をこれまで困難であったタスクにも適用し、被写体再文脈化（subject recontextualization）、テキストガイドによる視点合成（text-guided view synthesis）、芸術的なレンダリングなどを行いつつ、被写体の主要な特徴を保ちました。さらに、この新たな被写体駆動型生成タスクのために新しいデータセットと評価プロトコルも提供しています。プロジェクトページ: https://dreambooth.github.io/

ソースPDF コードを表示