7時間前

HPSv3:広範囲な人間の好みスコアへの挑戦

Yuhang Ma, Xiaoshi Wu, Keqiang Sun, Hongsheng Li
HPSv3:広範囲な人間の好みスコアへの挑戦
要約

テキストから画像を生成するモデルの評価には、人間の知覚と整合性が求められるが、従来の人的評価に基づく指標は、データカバレッジの限界、最適でない特徴抽出、非効率な損失関数といった課題に直面している。こうした課題に対処するため、本研究では「Human Preference Score v3(HPSv3)」を提案する。(1)我々は、最先端の生成モデルおよび低品質から高品質までの実世界画像を含む108万件のテキスト-画像ペアと、117万件のアノテーション付き対比較データを統合した、初めての広範囲にわたる人間の好みデータセット「HPDv3」を公開する。(2)さらに、不確かさを意識したランク付け損失を用いて訓練されたVLM(視覚言語モデル)ベースの好みモデルを導入し、細粒度な順位付けを実現する。また、HPSv3を用いて各ステップで最適な画像を選択する仕組みを活用することで、追加データを必要とせずに画像を段階的に改善する「Chain-of-Human-Preference(CoHP)」という反復的画像最適化手法を提案する。広範な実験により、HPSv3が広範囲の画像評価において堅牢な指標として機能すること、またCoHPが効率的かつ人間の好みに整合した画像生成品質向上手法であることが示された。コードおよびデータセットは、HPSv3公式ページにて公開されている。

HPSv3:広範囲な人間の好みスコアへの挑戦 | 最新論文 | HyperAI超神経