5ヶ月前

画像から動画生成

マルチモーダル

マルチモーダル

コンピュータビジョン

Shen Sang Tiancheng Zhi Tianpei Gu Jing Liu Linjie Luo

概要

本稿では、1枚の入力画像から個別化された動画を高忠実度で生成するモデル「Lynx」を紹介する。LynxはオープンソースのDiffusion Transformer（DiT）基盤モデルを基に構築され、顔の同一性を高精度で維持するための2つの軽量アダプタを導入している。IDアダプタは、ArcFaceから得られる顔特徴ベクトルをコンパクトなアイデンティティトークンに変換するPerceiver Resamplerを採用し、条件付けに活用する。一方、Refアダプタは固定された参照パスから得られる高密度なVAE特徴を統合し、クロスアテンションを通じてTransformerのすべての層に細部に至る情報を注入する。これらのモジュールが協調することで、時間的な一貫性と視覚的な現実性を保ちつつ、強固な同一性保持が実現される。40人の被験者と20の偏りのないプロンプトから構成される厳選されたベンチマーク（合計800テストケース）における評価結果から、Lynxは顔の類似度において優れた性能を発揮し、プロンプトの指示追随性も競争力を持ち、動画品質も高い水準を示した。これにより、個別化動画生成の技術水準が大きく前進した。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

5ヶ月前

画像から動画生成

マルチモーダル

マルチモーダル

コンピュータビジョン

Shen Sang Tiancheng Zhi Tianpei Gu Jing Liu Linjie Luo

概要

本稿では、1枚の入力画像から個別化された動画を高忠実度で生成するモデル「Lynx」を紹介する。LynxはオープンソースのDiffusion Transformer（DiT）基盤モデルを基に構築され、顔の同一性を高精度で維持するための2つの軽量アダプタを導入している。IDアダプタは、ArcFaceから得られる顔特徴ベクトルをコンパクトなアイデンティティトークンに変換するPerceiver Resamplerを採用し、条件付けに活用する。一方、Refアダプタは固定された参照パスから得られる高密度なVAE特徴を統合し、クロスアテンションを通じてTransformerのすべての層に細部に至る情報を注入する。これらのモジュールが協調することで、時間的な一貫性と視覚的な現実性を保ちつつ、強固な同一性保持が実現される。40人の被験者と20の偏りのないプロンプトから構成される厳選されたベンチマーク（合計800テストケース）における評価結果から、Lynxは顔の類似度において優れた性能を発揮し、プロンプトの指示追随性も競争力を持ち、動画品質も高い水準を示した。これにより、個別化動画生成の技術水準が大きく前進した。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています