2ヶ月前
SCAM! 画像間の人物転送にSemantic Cross Attention Modulationを用いる
Nicolas Dufour; David Picard; Vicky Kalogeiton

要約
最近の多くの研究が意味条件付き画像生成に焦点を当てています。これらの方法の多くは、より狭い範囲のポーズ転送に重点を置き、被写体転送というより困難なタスク、つまりポーズだけでなく外見や背景も転送することを無視しています。本研究では、SCAM(Semantic Cross Attention Modulation)と呼ばれるシステムを導入します。このシステムは画像の各意味領域(前景と背景を含む)に豊富で多様な情報をエンコードし、細部に重点を置いた精密な生成を実現します。これは、Semantic Attention Transformer Encoderによって各意味領域から複数の潜在ベクトルを抽出し、対応するジェネレータが意味クロスアテンションモデレーションを使用してこれらの複数の潜在ベクトルを利用することで可能になります。SCAMは再構築設定のみで訓練されますが、被写体転送はテスト時に実行されます。我々の分析では、提案したアーキテクチャが各意味領域における外見の多様性を効果的にエンコードできることを示しています。iDesignerおよびCelebAMask-HDデータセットでの広範な実験結果から、SCAMがSEANおよびSPADEを上回ることが確認され、さらに被写体転送において新たな最先端技術となっています。