HyperAI超神経

安定した仮想カメラは画像を数秒で3D動画に変換します

1. チュートリアルの概要

このチュートリアルで使用されるコンピューティング リソースは、単一の RTX 4090 カードです。

安定仮想カメラ(Seva)は、2025年3月にStability AIによって開始された一般的な拡散モデルです。関連する論文の結果は「安定した仮想カメラ: 拡散モデルによる生成ビュー合成

Seva は、任意の数の入力ビューとターゲット カメラを指定して、シーンの新しいビューを生成できます。その設計は、特定のタスク構成に依存せずに、視点の変化が大きいサンプルや時間的に滑らかなサンプルを生成する際の既存の方法の制限を克服します。このモデルの注目すべき特徴は、追加の 3D 表現学習を必要とせずに非常に一貫性のあるサンプル生成を維持できるため、実際のアプリケーションでの遠近法合成プロセスが簡素化されることです。さらに、Seva は最長 30 秒の高品質ビデオを生成し、シームレスにループさせることができます。広範なベンチマーク テストにより、Seva はさまざまなデータセットと設定で既存の方法よりも優れていることが示されています。

2. 操作手順

1. コンテナを起動します

コンテナを起動した後、APIアドレスをクリックしてWebインターフェースに入ります。モデルが大きいため、WebUIインターフェースが表示されるまでに約3分かかります。そうでない場合は、「Bad Gateway」と表示されます。

2. 基本機能

「基本」インターフェースをクリックします

このインターフェース関数は、単一の画像に基づいて、事前に設定されたカメラ軌跡の 1 つに基づいてビデオを生成できます。

3. 上級

「基本」インターフェースをクリックします

このインターフェースを使用すると、キーフレーム ベースのインターフェースを通じて任意の数の入力画像を指定して、任意のカメラ軌跡のビデオを生成できます。

画像をアップロードしたら、「確認」をクリックします

「画像を処理」をクリックし、画像が処理されるのを待ちます。

キーフレームを追加するには、「キーフレームの追加」をクリックします。

クリックしてビデオを生成

3. 議論

🖌️ 高品質のプロジェクトを見つけたら、メッセージを残してバックグラウンドで推奨してください。さらに、チュートリアル交換グループも設立しました。お友達はコードをスキャンして [SD チュートリアル] に参加し、さまざまな技術的な問題について話し合ったり、アプリケーションの効果を共有したりできます。