Command Palette
Search for a command to run...

要約
アイデンティティの一貫性のある生成は、テキストから画像への研究において重要なテーマとなっており、近年のモデルは参照する個人のアイデンティティと整合した画像の生成において顕著な成果を上げている。しかし、同一人物の複数枚の画像を含む大規模なペアデータセットが極めて不足しているため、大多数のアプローチは再構成に基づく学習に依存している。この依存は、我々が「コピーペースト」と呼ぶ失敗モードを引き起こしやすい。すなわち、モデルが参照画像の顔を直接再現するのではなく、ポーズや表情、照明などの自然な変化においてもアイデンティティを保持する能力が欠如する。このような過度な類似性は制御性を損ない、生成の表現力を制限する。こうした課題に対処するため、本研究では(1)複数人物を想定したシナリオに特化した大規模ペアデータセット「MultiID-2M」を構築し、各アイデンティティに対して多様な参照画像を提供する;(2)コピーペーストアーティファクトの度合いと、アイデンティティの忠実性と変化性のトレードオフを定量的に評価できるベンチマークを導入する;(3)ペアデータを活用し、忠実性と多様性のバランスを取るためのコントラスティブアイデンティティ損失を用いた新たな学習枠組みを提案する。これらの貢献を統合した結果、コピーペーストを効果的に抑制しつつ高いアイデンティティ類似性を維持できる、拡散モデルベースのモデル「WithAnyone」が開発された。広範な定性的・定量的実験により、WithAnyoneはコピーペーストアーティファクトを顕著に低減し、ポーズや表情に対する制御性を向上させつつ、高い知覚品質を維持することが確認された。ユーザー調査の結果も、本手法が高いアイデンティティ忠実性を達成するとともに、表現性豊かな制御可能な生成を可能にしていることを裏付けている。