Command Palette
Search for a command to run...
Dong She Siming Fu Mushui Liu Qiaoqiao Jin Hualiang Wang Mu Liu Jidong Jiang

要約
複数の参照対象を用いた個人化画像生成は、複数の参照対象に基づいて画像を合成する際、アイデンティティの忠実性と意味的整合性を維持するという独自の課題を抱えている。従来の手法は、共有表現空間内における異なる対象間の相互作用を適切にモデル化できないため、アイデンティティの混合や属性の漏洩といった問題に悩まされている。本研究では、明示的な意味的対応関係と直交的特徴分離を核とする「MOSAIC」という表現中心のフレームワークを提案する。本研究の鍵となる洞察は、複数対象生成において、表現レベルでの精密な意味的整合性が不可欠であるということである——生成画像内のどの領域が各参照対象のどの部位に注目すべきかを正確に把握する必要があるということである。この実現のために、複数の参照対象とターゲット画像間の細粒度な意味的対応関係を詳細にアノテーションした「SemAlign-MS」というデータセットを新たに構築した。これは、本分野においてこれまで未確認であった貴重なリソースである。この基盤の上に、点対点の意味的整合性を強制する「意味的対応注目損失(semantic correspondence attention loss)」を提案し、各参照対象が指定された領域に高精度で一貫性を保って対応することを実現した。さらに、異なる対象が直交する注目サブ空間へと分離されるよう促す「複数参照分離損失(multi-reference disentanglement loss)」を設計し、特徴の干渉を防止しつつ、個々のアイデンティティ特性を維持することを可能にした。広範な実験結果から、MOSAICが複数のベンチマークにおいて最先端の性能を達成することが示された。特に、従来の手法は3対象を超えると性能が著しく低下する傾向にあるが、MOSAICは4対象以上でも高い忠実性を維持できることを実証した。これにより、複雑な複数対象合成応用の新たな可能性が開かれた。