5ヶ月前

概要

画像カスタマイズ技術の最近の進展は、より強力なカスタマイズ能力を備えることから、幅広い応用可能性を示している。しかし、人間が顔に対して特に敏感であることを踏まえると、複数の参照画像を用いた場合における同一人物の同一性を保持しつつ、人物識別が混同しないようにするという大きな課題が残っており、カスタマイズモデルの人物同一性のスケーラビリティが制限されている。この課題に対処するため、本研究では、高忠実度の人物同一性保持を維持しつつ、スケーラビリティを実現しつつ人物識別混同を軽減することを目的とした「UMO（Unified Multi-identity Optimization）」という統合的マルチアイデンティティ最適化フレームワークを提案する。UMOは「マルチ対マルチマッチング」の枠組みを採用し、マルチアイデンティティ生成をグローバルな割り当て最適化問題として再定式化することで、既存の画像カスタマイズ手法に対して、拡散モデルを用いた強化学習により、マルチアイデンティティの一貫性を一般化して実現する。UMOの学習を促進するため、合成データと実データを組み合わせた、複数の参照画像を備えたスケーラブルなカスタマイズデータセットを構築した。さらに、人物識別混同を測定するための新しい評価指標も提案する。広範な実験の結果、UMOは人物同一性の一貫性を著しく向上させるとともに、複数の画像カスタマイズ手法において人物識別混同を低減することを実証し、オープンソース手法における人物同一性保持の観点から、新たな最先端の性能を達成した。コードとモデル：https://github.com/bytedance/UMO

ソースPDF コードを表示