Bowen Ping Chengyou Jia Minnan Luo Changliang Xia Xin Shen Zhuohang Dang Hangwei Qian

要約
一貫した画像生成には、複数の画像にわたってアイデンティティ、スタイル、論理的一貫性を忠実に保持することが不可欠であり、これは物語構成やキャラクター設計などの応用において特に重要である。従来の教師あり学習アプローチは、視覚的一貫性を捉えた大規模なデータセットの不足や、人間の知覚的好みをモデル化する複雑さという課題に直面しており、このタスクに対しては限界がある。本論文では、強化学習(RL)が、データに依存せずに複雑かつ主観的な視覚基準を学習可能であるという点から、有望な代替手法であると主張する。これを実現するために、専用の一貫性報酬モデルと効率的な強化学習アルゴリズムを統合した包括的なフレームワーク「PaCo-RL」を提案する。第一の構成要素であるPaCo-Rewardは、自動的なサブ図のペアリングにより構築された大規模データセット上で訓練されたペアワイズ一貫性評価モデルであり、タスクに特化した指示とコモンセンス・オブ・トゥークン(CoT)推論を活用した生成的・自己回帰型スコアリング機構により、一貫性を評価する。第二の構成要素であるPaCo-GRPOは、新たな解像度分離最適化戦略を採用することで強化学習のコストを大幅に削減するとともに、ログ制限付きのマルチ報酬集約メカニズムを導入し、報酬最適化のバランスと安定性を確保している。代表的な二つのサブタスクにおける広範な実験結果から、PaCo-Rewardが人間の視覚的一貫性認識との整合性を顕著に向上させ、PaCo-GRPOが訓練効率と安定性を改善しつつ、最先端の一貫性生成性能を達成することが明らかになった。これらの結果は、PaCo-RLが一貫した画像生成における実用的かつスケーラブルな解決策としての可能性を示している。プロジェクトページは以下のURLにて公開されている:https://x-gengroup.github.io/HomePage_PaCo-RL/。