日付

8ヶ月前

サイズ

48.17 MB

タグ

ビデオ処理

ライセンス

Apache 2.0

GitHub

suimuc/VIRES

論文URL

2411.16199

1. チュートリアルの概要

VIRESは、スケッチとテキストガイダンスを組み合わせたビデオインスタンスの再描画手法で、2025年に北京大学カメラインテリジェンス研究所（Shi Baixinチーム）がOpenBayesベイジアンコンピューティングおよび北京郵電大学人工知能学院パターン認識研究所のLi Si准教授のチームと共同で提案した。動画の被写体の再描画、置換、生成、削除など、さまざまな編集操作をサポートしている。この手法は、テキスト生成動画モデルの事前知識を利用して時間的な一貫性を確保している。また、標準化された適応型スケーリングメカニズムを備えたSequential ControlNetを提案しており、構造レイアウトを効果的に抽出し、高コントラストのスケッチの詳細を適応的に捉えることができる。さらに、研究チームはDiT（拡散変換器）バックボーンにスケッチアテンションメカニズムを導入し、きめ細かなスケッチセマンティクスを解釈・注入している。実験結果では、VIRES がビデオ品質、時間的一貫性、条件付きアライメント、ユーザー評価など多くの面で既存の SOTA モデルよりも優れていることが示されています。

関連研究 VIRES: スケッチとテキストによるガイド生成によるビデオインスタンスの再描画このトピックはCVPR 2025に選ばれました。

このチュートリアルでは、単一カード A6000 のリソースを使用します。

2. プロジェクト例

3. 操作手順

1. コンテナを起動した後、API アドレスをクリックして Web インターフェイスに入ります

2. ウェブページに入ると、モデルを使用できます

「Bad Gateway」と表示される場合、モデルが初期化中であることを意味します。モデルが大きいため、2〜3分ほど待ってページを更新してください。

利用手順

パラメータの説明:

CFG ガイダンススケール: 無条件ガイダンスの強さ。
サンプリングステップ数: サンプリングステップの数。
開始フレーム: 開始フレームを編集します。

引用情報

@article{vires,
      title={VIRES: Video Instance Repainting via Sketch and Text Guided Generation},
      author={Weng, Shuchen and Zheng, Haojie and Zhang, Peixuan and Hong, Yuchen and Jiang, Han and Li, Si and Shi, Boxin},
      booktitle={Proceedings of the Computer Vision and Pattern Recognition Conference},
      pages={28416--28425},
      year={2025}
}

このノートブックはコミュニティユーザーによって提供されたものであり、教育および情報提供のみを目的としています。コンテンツに著作権侵害が含まれる場合は、[email protected]までご連絡ください。速やかに確認し、削除いたします。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

HyperAI

このNotebookを実行 Discordで議論

日付

8ヶ月前

サイズ

48.17 MB

タグ

ビデオ処理

ライセンス

Apache 2.0

GitHub

suimuc/VIRES

論文URL

2411.16199

1. チュートリアルの概要

関連研究 VIRES: スケッチとテキストによるガイド生成によるビデオインスタンスの再描画このトピックはCVPR 2025に選ばれました。

このチュートリアルでは、単一カード A6000 のリソースを使用します。

2. プロジェクト例

3. 操作手順

1. コンテナを起動した後、API アドレスをクリックして Web インターフェイスに入ります

2. ウェブページに入ると、モデルを使用できます

「Bad Gateway」と表示される場合、モデルが初期化中であることを意味します。モデルが大きいため、2〜3分ほど待ってページを更新してください。

利用手順

パラメータの説明:

CFG ガイダンススケール: 無条件ガイダンスの強さ。
サンプリングステップ数: サンプリングステップの数。
開始フレーム: 開始フレームを編集します。

引用情報

@article{vires,
      title={VIRES: Video Instance Repainting via Sketch and Text Guided Generation},
      author={Weng, Shuchen and Zheng, Haojie and Zhang, Peixuan and Hong, Yuchen and Jiang, Han and Li, Si and Shi, Boxin},
      booktitle={Proceedings of the Computer Vision and Pattern Recognition Conference},
      pages={28416--28425},
      year={2025}
}

LongCat-Video: MeituanのオープンソースAIビデオ生成モデル

3ヶ月前

Krea-realtime-video: リアルタイムビデオ生成モデル

3ヶ月前

SAM3: 視覚セグメンテーションモデル

2ヶ月前

F5-E2 TTS あらゆるサウンドをわずか 3 秒でクローン作成

2ヶ月前

FLUX.2-dev: 画像生成・編集モデル

2ヶ月前

Supertonic: ONNXに基づく高速TTS音声合成モデル

2ヶ月前

ROCKET-2: 3Dゲームゼロショット転送

2ヶ月前

Ovis-Image: 高品質画像生成モデル

2ヶ月前

JarvisArt-プレビュースマート写真レタッチプロキシ

1ヶ月前

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Command Palette

VIRES: スケッチとテキストのデュアルガイドによるビデオ再描画

1. チュートリアルの概要

2. プロジェクト例

3. 操作手順

引用情報

AIでAIを構築

HyperAI Newsletters

Command Palette

VIRES: スケッチとテキストのデュアルガイドによるビデオ再描画

1. チュートリアルの概要

2. プロジェクト例

3. 操作手順

引用情報

関連 ノートブック

LongCat-Video: MeituanのオープンソースAIビデオ生成モデル

Krea-realtime-video: リアルタイムビデオ生成モデル

SAM3: 視覚セグメンテーションモデル

F5-E2 TTS あらゆるサウンドをわずか 3 秒でクローン作成

FLUX.2-dev: 画像生成・編集モデル

Supertonic: ONNXに基づく高速TTS音声合成モデル

ROCKET-2: 3Dゲームゼロショット転送

Ovis-Image: 高品質画像生成モデル

JarvisArt-プレビュー スマート写真レタッチプロキシ

AIでAIを構築

HyperAI Newsletters

Command Palette

VIRES: スケッチとテキストのデュアルガイドによるビデオ再描画

1. チュートリアルの概要

2. プロジェクト例

3. 操作手順

引用情報

関連 ノートブック

LongCat-Video: MeituanのオープンソースAIビデオ生成モデル

Krea-realtime-video: リアルタイムビデオ生成モデル

SAM3: 視覚セグメンテーションモデル

F5-E2 TTS あらゆるサウンドをわずか 3 秒でクローン作成

FLUX.2-dev: 画像生成・編集モデル

Supertonic: ONNXに基づく高速TTS音声合成モデル

ROCKET-2: 3Dゲームゼロショット転送

Ovis-Image: 高品質画像生成モデル

JarvisArt-プレビュー スマート写真レタッチプロキシ

AIでAIを構築

HyperAI Newsletters

関連 ノートブック

LongCat-Video: MeituanのオープンソースAIビデオ生成モデル

Krea-realtime-video: リアルタイムビデオ生成モデル

SAM3: 視覚セグメンテーションモデル

F5-E2 TTS あらゆるサウンドをわずか 3 秒でクローン作成

FLUX.2-dev: 画像生成・編集モデル

Supertonic: ONNXに基づく高速TTS音声合成モデル

ROCKET-2: 3Dゲームゼロショット転送

Ovis-Image: 高品質画像生成モデル

JarvisArt-プレビュー スマート写真レタッチプロキシ

関連 ノートブック

LongCat-Video: MeituanのオープンソースAIビデオ生成モデル

Krea-realtime-video: リアルタイムビデオ生成モデル

SAM3: 視覚セグメンテーションモデル

F5-E2 TTS あらゆるサウンドをわずか 3 秒でクローン作成

FLUX.2-dev: 画像生成・編集モデル

Supertonic: ONNXに基づく高速TTS音声合成モデル

ROCKET-2: 3Dゲームゼロショット転送

Ovis-Image: 高品質画像生成モデル

JarvisArt-プレビュー スマート写真レタッチプロキシ

関連ノートブック

JarvisArt-プレビュースマート写真レタッチプロキシ

関連ノートブック

JarvisArt-プレビュースマート写真レタッチプロキシ

関連ノートブック

JarvisArt-プレビュースマート写真レタッチプロキシ

関連ノートブック

JarvisArt-プレビュースマート写真レタッチプロキシ