2ヶ月前

IP-アダプター: テキスト対応の画像プロンプトアダプター для текст-ту-имэйдж ディフュージョンモデル

Ye, Hu ; Zhang, Jun ; Liu, Sibo ; Han, Xiao ; Yang, Wei
IP-アダプター: テキスト対応の画像プロンプトアダプター для текст-ту-имэйдж ディフュージョンモデル
要約

近年、大規模なテキストから画像への生成モデルが、高忠実度の画像を生成する際の印象的な生成能力を示しています。しかし、テキストプロンプトのみを使用して望ましい画像を生成することは非常に難しく、しばしば複雑なプロンプトエンジニアリングが必要となります。テキストプロンプトの代替手段として、画像プロンプトがあります。よく言われるように、「画像は千言に勝る」("an image is worth a thousand words")です。既存の直接微調整手法は効果的ですが、大量の計算リソースを必要とし、他のベースモデルやテキストプロンプト、構造制御との互換性がありません。本論文では、事前学習済みのテキストから画像への生成モデルに対して画像プロンプト機能を実現するための効果的かつ軽量なアダプターであるIP-Adapterを提案します。IP-Adapterの主要な設計は、テキスト特徴量と画像特徴量用にクロスアテンション層を分離するデカップルされたクロスアテンション機構です。当方法は単純ながら、わずか22Mパラメータで完全に微調整された画像プロンプトモデルと同等またはそれ以上の性能を達成できます。事前学習済みの拡散モデルを固定しているため、提案したIP-Adapterは同じベースモデルから微調整された他のカスタムモデルだけでなく、既存の制御可能なツールを使用した制御可能な生成にも汎化することが可能です。デカップルされたクロスアテンション戦略のおかげで、画像プロンプトはテキストプロンプトとも良好に連携し、マルチモーダルな画像生成を実現することができます。プロジェクトページは\url{https://ip-adapter.github.io}で利用可能です。

IP-アダプター: テキスト対応の画像プロンプトアダプター для текст-ту-имэйдж ディフュージョンモデル | 最新論文 | HyperAI超神経