7ヶ月前

概要

拡散モデルの微調整は、事前学習済みモデルを特定のオブジェクトを生成するためにカスタマイズする強力なアプローチを提供しますが、訓練サンプルが限られている場合、過学習に頻繁に陥り、汎化能力と出力の多様性が損なわれることがあります。本論文では、単一のコンセプト画像を使用して拡散モデルを適応させるという挑戦的かつ影響力のあるタスクに取り組んでいます。単一画像によるカスタマイズは最も実用的な可能性を持つためです。私たちは T-LoRA（Timestep-Dependent Low-Rank Adaptation）と呼ばれる、拡散モデルのパーソナライゼーションのために特別に設計されたフレームワークを導入します。本研究では、高い拡散ステップ数の方が低いものよりも過学習しやすいことを示しており、これにより時間ステップに敏感な微調整戦略が必要となることが明らかになりました。T-LoRA は以下の2つの主要な革新を取り入れています：(1) 拡散ステップ数に基づいてランク制約更新を調整する動的微調整戦略と、(2) オーソゴナル初期化を通じてアダプター部品間の独立性を確保する重みパラメータ化技術です。広範囲にわたる実験結果から、T-LoRA およびその個々の部品が標準的な LoRA および他の拡散モデルパーソナライゼーション手法を上回ることが示されています。これらはコンセプトの一貫性とテキストとの整合性の両面で優れたバランスを達成しており、データが限られたりリソースが制約されているような状況での T-LoRA の潜在力を示しています。コードは https://github.com/ControlGenAI/T-LoRA で入手可能です。

ソースPDF コードを表示