Command Palette
Search for a command to run...
Xiangwei Shen Zhimin Li Zhantao Yang Shiyi Zhang et al

要約
最近の研究では、微分可能な報酬を用いて拡散モデルを人間の好みに直接的に整合させる手法の有効性が示されている。しかしながら、これらの手法には以下の2つの主要な課題が存在する。(1) 報酬評価に勾配計算を伴う複数ステップのノイズ除去に依存しており、計算コストが高いため、最適化をわずか数ステップの拡散ステップに制限せざるを得ない点;(2) 光学的リアリズムや正確な照明効果など、望ましい美術的品質を達成するためには、報酬モデルの継続的なオフライン適応が必要となる点。複数ステップのノイズ除去に伴う制約を克服するため、本研究では「Direct-Align」という新手法を提案する。この手法は、拡散状態がノイズとターゲット画像の間の補間であるという性質を活用し、あらかじめノイズの事前分布を定義することで、任意の時間ステップから元の画像を補間により効果的に復元することを可能にする。これにより、後段の時間ステップにおける過剰最適化を効果的に回避できる。さらに、本研究では「意味的相対的好み最適化(Semantic Relative Preference Optimization: SRPO)」を導入する。このアプローチでは、報酬をテキスト条件付きの信号として定式化することで、ポジティブ・ネガティブなプロンプトの拡張に対応して報酬をオンラインで調整可能となり、オフラインでの報酬モデル微調整に依存する必要を大幅に削減する。本手法により、最適化されたノイズ除去とオンライン報酬調整を組み合わせてFLUXモデルを微調整した結果、人間評価によるリアリズムおよび美術的品質が3倍以上向上した。