10日前

スタンドイン:動画生成のための軽量かつ即時接続型アイデンティティ制御

Bowen Xue, Qixin Yan, Wenjing Wang, Hao Liu, Chen Li
スタンドイン:動画生成のための軽量かつ即時接続型アイデンティティ制御
要約

ユーザー指定の人物像と一致する高精細な人間映像を生成することは、生成AI分野において重要でありながらも、依然として困難な課題である。従来の手法は、過剰な数の学習パラメータに依存しており、他のAIGCツールとの互換性にも欠けることが多かった。本論文では、映像生成におけるアイデンティティ保持を実現する軽量かつ即時接続可能なフレームワーク「Stand-In」を提案する。具体的には、事前学習済みの映像生成モデルに条件付き画像ブランチを導入する。アイデンティティ制御は、条件付き位置マッピングを用いた制限付き自己注意機構によって実現され、わずか2000ペアのデータで迅速に学習可能である。追加パラメータは約1%にとどまりながらも、本フレームワークは映像品質およびアイデンティティ保持性能において優れた結果を達成し、全パラメータの再学習を要する他の手法を上回っている。さらに、本フレームワークは、主体駆動型映像生成、ポーズ参照型映像生成、スタイル化、顔の交換などの他のタスクともスムーズに統合可能である。