北京大学の Shi Boxin チームとベイジアン コンピューティングは、13,000 本のビデオ クリップに基づいて、ゼロ サンプル ビデオ編集を考慮したパノラマ ビデオ生成フレームワーク PanoWan を提案しました。

パノラマ動画は、仮想現実(VR)における重要なコンテンツ形式の一つです。現実世界をベースとし、360度の没入感を通してユーザーの参加感とインタラクティブな体験を向上させます。コンテンツ制作、産業への導入、そしてユーザーへの普及という面で、VRの発展を支える重要な基盤となっています。現在のパノラマビデオ制作は、通常、プロ仕様の機器に依存しており、コンテンツ作成の幅が大きく制限されています。
近年、生成ビデオモデルの急速な発展に伴い、研究者はそれをパノラマビデオの分野にも応用しようと試み始めており、それによってパノラマコンテンツ作成の敷居が下がり、VRコンテンツの大規模な拡大が促進され、さらには没入感の高いインタラクティブな仮想世界の構築にも役立っています。
しかし、従来のビデオ生成モデルをパノラマ分野に効率的に移転するのは簡単ではありません。主な課題は、パノラマ ビデオと通常のビデオの空間特徴の表現に根本的な違いがあることです。例えば、等距離長方形投影は緯度方向に画像の歪みを引き起こし、経度方向の境界接合は視覚的および意味的な不連続性を引き起こします。そのため、現在のテキスト・ビデオ生成技術は優れた成果を上げているとしても、パノラマ動画生成プロセスにおいて、シーン内の要素の空間配置の一貫性と整合性を確保することは困難です。
この重要な課題に対処するために、北京大学カメラインテリジェンス研究所 (Shi Boxin 氏のチーム) と OpenBayes ベイジアン コンピューティングが共同で、テキスト ガイドによるパノラマ ビデオ生成フレームワークである PanoWan をリリースしました。この手法は、非常にシンプルで効率的なモジュールアーキテクチャを採用し、事前学習済みのテキスト動画モデルの生成事前確率をパノラマ画像にスムーズに適用します。この目的のために、この手法は緯度を考慮したサンプリング技術を設計し、等距離長方形投影による画像歪みを効果的に低減します。同時に、回転セマンティックノイズ除去と境界充填ピクセル単位のデコード戦略により、経度境界における視覚的なセマンティック不整合の問題を解決します。
さらに、モデルを効果的に訓練するために、研究チームは、高品質で大規模なパノラマビデオデータセット PanoVid を特別に構築しました。このデータセットには、自然の風景、都市の街路風景、人間の活動など、さまざまなシーンを網羅した、合計約 1,000 時間分のテキスト説明付きのビデオ クリップが 13,000 本以上含まれています。
実験結果は、PanoWan は、テキストからパノラマ ビデオを生成するタスクにおいて現在最高のパフォーマンスを実現するだけでなく、強力なゼロ ショット ビデオ編集機能も示します。追加のトレーニングなしで、パノラマビデオの超解像度強化、セマンティック編集、ビデオコンテンツの拡張など、複数の実用的なシナリオを処理できます。

関連の研究論文「PanoWan: 緯度/経度を考慮したメカニズムで拡散ビデオ生成モデルを 360° に引き上げる」が arXiv で公開されました。
その他の例については、プロジェクトのホームページをご覧ください。
https://panowan.variantconst.com/

大規模パノラマ動画データセット PanoVid
パノラマ動画生成モデルの性能向上における主な障害の一つは、ペアデータセットの不足でした。データ不足の問題を解決するために、研究チームは、意味的にバランスが取れていて、シーンが多様で、高品質の大規模パノラマビデオデータセット PanoVid を構築しました。このデータセットには、360-1M、360+x、Imagine360、WEB360、Panonut360、Miraikan 360 度ビデオ データセット、公開されている没入型 VR ビデオ データセットなど、複数の既存のパノラマ ビデオ リソースがまとめられています。
初期収集後、研究チームはQwen-2.5-VLモデルを用いて動画の高品質なテキスト説明を自動生成し、動画にカテゴリータグを付与しました。その結果、正距円筒図法(ERP)形式の動画のみが保存されました。その後、コンテンツの重複を避けるため、説明の類似性に基づく重複排除戦略を採用し、さらにオプティカルフローの滑らかさと美観スコアを用いて動画を厳格に選別し、各カテゴリーにおいて高品質なクリップのみを保存しました。
この一連の厳格な処理手順を経て、PanoVid データセットには、最終的に 13,000 を超えるビデオ クリップが含まれます。総撮影時間は約944時間で、風景、街並み、人物など多岐にわたるシーンをカバーしています。

PanoWanの技術ハイライト:緯度と経度に焦点を当てる
PanoWan は、Wan 2.1 モデルと同じビデオ トレーニング フレームワークを使用します。目標は、元のモデルの生成事前確率を可能な限り維持しながら、最小限の変更でビデオ生成モデルをパノラマ分野に移行することです。ERP形式によって引き起こされるパノラマビデオの歪み問題を解決するために、研究チームは主に緯度と経度の 2 つのレベルで作業を行っています。
で、緯度方向では、PanoWan は緯度認識サンプリング (LAS) を使用して、極地における緯度の歪みの問題を軽減します。この手法は、ノイズの分布を球体の実際の周波数特性に近づけるように再マッピングすることで、緯度方向の画像の伸縮や歪みを効果的に低減します。
生成された結果の左右の境界における視覚的および意味的な不連続性の問題を解決するための経度方向。PanoWan は、回転セマンティックノイズ除去 (RSD) とパディングピクセル単位のデコード (PPD) を提案しました。前者は、潜在空間での回転操作を通じて、シームエラーをさまざまな経度に均等に分散し、一貫性のない意味遷移の現象を大幅に削減します。後者は、シーム領域のコンテキストを拡張し、デコーダーがデコードプロセス中に境界外のより多くの情報を考慮できるようにすることで、ピクセルレベルの境界セグメンテーションの問題を効果的に回避します。

下図は、アブレーション実験を用いて、本研究で提案した緯度経度メカニズムの有効性を直感的に実証しています。画像の左上隅では、緯度を考慮したサンプリング手法を用いることで、もともと歪みが生じやすかった天井線や光の帯状の線が、透視図では直線的で自然なものになっていることがわかります。右下隅の完全な手法では、回転セマンティックノイズ除去と境界充填のピクセル単位のデコードを組み合わせることで、画像境界領域の不連続性を解消することに成功し、遷移がスムーズで自然になっています。

PanoWanエフェクトディスプレイ
まずは最も基本的なヴィンセントのパノラマ動画です。早速、その効果を見てみましょう。
プロンプト:燃えるような夕焼け空を背景に、噴煙を上げる活火山のパノラマ写真。前景には霧雲に覆われた雄大な山々が広がり、息を呑むようなコントラストを生み出しています。カメラはゆっくりとパンし、自然の広大さと畏敬の念を抱かせる美しさを捉えています。
プロンプト:ネオンに彩られたサイバーパンクな大都市をパノラマ撮影。多層構造の高速道路で、激しいチェイスが繰り広げられる。マットブラックの洗練されたハイパーカーが都会のジャングルを疾走し、巨大な高層ビル群をかすめ去る。光り輝くスクリーンが、脈動するネオン広告でシーンを照らし出す。カメラはドラマチックなローアングルから、猛スピードで疾走する車を追いながら、そのアクションを捉える。
プロンプト:賑やかなスターバックス店内で、若い女性が窓際に座り、グランデラテをすすりながら、分厚い小説に夢中になっている。差し込む陽光が、集中力のある彼女の顔に温かみのある輝きを放っている。彼女を取り囲むのは、シックな木造のインテリア、淹れたてのコーヒーの香り、そして客たちの会話。活気に満ちたカフェの雰囲気を捉えたミディアムショット。
PanoWan は再トレーニングなしでも使用できます。ゼロショット アプリケーションには、長いビデオの生成、超解像度、セマンティック編集、パノラマ ビデオのビデオ アウトスケーリング タスクが含まれます。
長いビデオ生成プロンプト: ビーチの夕日。
ビデオ超解像度プロンプト: 活気あふれる魅力的な職人パン屋の360度パノラマビュー。職人たちが丁寧に手作りのパン、ペストリー、デザートを準備しています。棚には温かい焼き菓子が並び、芳醇な香りが漂い、温かさと心地よさ、そして料理の喜びが伝わってきます。
セマンティック編集プロンプト: 電車の色を赤に変更します。
ビデオ拡張プロンプト: 色とりどりの熱気球が優雅に上昇し、緑豊かな野原の上空を舞うパノラマショット。鮮やかな色彩が、雲が点在する広大な青空とコントラストを成しています。穏やかな風に吹かれ、気球は穏やかな舞いを踊り、眼下の緑豊かな風景にダイナミックな影を落とします。地上からのワイドショットで、雄大な景色を捉えています。
定量的および定性的な評価
研究チームは、Vincent パノラマ ビデオにも適用可能な 360DVD (CVPR'24) および DynamicScaler (CVPR'25) と PanoWan の量的および質的な比較を実施しました。
生成された映像品質とパノラマ動画の特性を科学的に評価するため、チームは一般的な動画評価指標とパノラマ特有の指標の両方を考慮した評価システムを採用しました。一般的な指標には、動画全体の品質(FVD)、テキスト動画マッチング(VideoCLIP-XL)、画質などが含まれます。一方、パノラマ特有の指標には、経度境界の連続性、動きパターンの正確性、シーンの豊かさを測定する評価基準が用いられています。定量的な実験結果から判断すると、PanoWan はすべての主要な指標で最高のパフォーマンスを達成しました。

以下は、PanoWan と既存の方法の視覚効果の比較を示しています。
研究チームについて
北京大学カメラインテリジェンス研究所(http://camera.pku.edu.cn)所長の石博信氏は、北京大学コンピュータサイエンス学院ビデオ・ビジョンテクノロジー研究所の副所長、常勤准教授(研究員)、博士課程指導教員、北京知源奨学生、そして北京大学-知方体知能共同研究室所長を務めています。東京大学で博士号を取得し、MITメディアラボで博士研究員を務めました。
研究分野は計算写真とコンピュータビジョンです。200本以上の論文を発表しており、その中にはTPAMI論文30本、コンピュータビジョンに関するトップ3の会議で100本以上の論文が含まれています。彼の論文は、IEEE/CVFコンピュータビジョンとパターン認識会議(CVPR)2024のベストペーパー、準優勝、国際計算写真会議(ICCP)2015のベストペーパー準優勝、国際コンピュータビジョン会議(ICCV)2015のベストペーパー候補を受賞しました。また、日本大川研究助成賞(2021年)、中国電子学会若手科学者賞(2024年)を受賞しました。科学技術部主要人工知能プロジェクトの主任科学者、中国国家自然科学基金の重点プロジェクト責任者、国家青年人材育成プログラムの候補者でもあります。彼は、トップクラスの国際ジャーナルであるTPAMIとIJCVの編集委員を務め、またトップクラスのカンファレンスであるCVPR、ICCV、ECCVのフィールドチェアも務めています。APSIPAのDistinguished Speaker、CCFのDistinguished Member、IEEE/CSIGのSenior Memberでもあります。

主要協力企業であるOpenBayes Bayesian Computingは、国内有数の人工知能サービスプロバイダーとして、産業研究および科学研究支援の分野に深く関わっています。従来のソフトウェアエコシステムと機械学習モデルを新世代の異種チップに移植することで、産業界や大学研究機関に、より高速で使いやすいデータサイエンスコンピューティング製品を提供しています。同社の製品は、数十の大規模産業シナリオや主要な科学研究機関に採用されています。
公式ウェブサイトにアクセスしてください:https://openbayes.com/