Command Palette
Search for a command to run...
Shen Sang Tiancheng Zhi Tianpei Gu Jing Liu Linjie Luo

要約
本稿では、1枚の入力画像から個別化された動画を高忠実度で生成するモデル「Lynx」を紹介する。LynxはオープンソースのDiffusion Transformer(DiT)基盤モデルを基に構築され、顔の同一性を高精度で維持するための2つの軽量アダプタを導入している。IDアダプタは、ArcFaceから得られる顔特徴ベクトルをコンパクトなアイデンティティトークンに変換するPerceiver Resamplerを採用し、条件付けに活用する。一方、Refアダプタは固定された参照パスから得られる高密度なVAE特徴を統合し、クロスアテンションを通じてTransformerのすべての層に細部に至る情報を注入する。これらのモジュールが協調することで、時間的な一貫性と視覚的な現実性を保ちつつ、強固な同一性保持が実現される。40人の被験者と20の偏りのないプロンプトから構成される厳選されたベンチマーク(合計800テストケース)における評価結果から、Lynxは顔の類似度において優れた性能を発揮し、プロンプトの指示追随性も競争力を持ち、動画品質も高い水準を示した。これにより、個別化動画生成の技術水準が大きく前進した。