HyperAI超神経

ブラウン大学のカリフォルニア州のプロフェッショナル研究者チームは、任意の角度から観察できる 3D 空間映像である「ボリューメトリック・ビデオ」を、既存のインターネットインフラ上で効率的にストリーミング・保存するための新技術を開発しました。この研究は、コンピュータサイエンスの修士課程学生であるアアヒッシュ・ライ氏が主導し、ブラウン大学でインタラクティブ 3D ビジョン・ラーニング・ラボを率いるスリナト・スリドハル准教授の指導のもと進められました。発表は 6 月に開催される IEEE/CVF 画像認識・パターン認識会議で行われます。従来のボリューメトリック・ビデオは、複数の同期カメラで空間を記録し、アルゴリズムで 3D 再構築を行うため、30 分程度の映像でもテラバイト単位のデータ容量となり、既存の映像コーデックと互換性がありませんでした。この研究で提案された「PackUV」と呼ぶ手法は、最先端の 3D ガウススパッターリング技術を活用し、3D 空間内の数百万のガウス点（色、不透明度、形状を符号化するぼやけた点）を、地球を平らな地図に投影するように 2D 画像に変換します。これにより、動いている 3D シーンの全体を符号化した多次元画像が生成され、Netflix や YouTube で使用されている既存のコーデックと互換性のある標準的な動画ファイルとしてストリーミング可能になりました。もう一つの課題は、長時間の映像で物体が他の物体に隠れたり、突然登場したりする場合に追跡が破綻する点でした。本研究では、長時間の動画を小分割し、各セグメントの開始時に動きや物体の出入りを再評価して追跡プロセスをリスタートするアプローチを採用しました。これにより、一時的に視界から外れた物体の再捕捉や新規動作の処理が強化され、複雑な 3D シーンを最大 30 分間にわたって安定してレンダリングすることが可能になりました。検証のため、研究者らは過去最大規模となるマルチビュービデオデータセットを構築しました。これは 50 から 90 台の同期カメラアレイを用いて、バスケットボールや卓球、調理、木工といった多様な動作を研究室および屋外の現場で撮影したものです。このデータセットは研究者に無償公開され、エンターテインメント、スポーツ、製造業における「現実世界のデジタルツイン」創出など、将来的な技術応用の発展を支援する目的です。

関連リンク

関連リンク

関連リンク

オンラインチュートリアル | UC Berkeley/NVIDIAなどが、GPUメモリを4倍節約し、トレーニング時間を10%短縮するオープンソースの3DGSライブラリgsplatをリリースしました。

オンラインチュートリアル | UC Berkeley/NVIDIAなどが、GPUメモリを4倍節約し、トレーニング時間を10%短縮するオープンソースの3DGSライブラリgsplatをリリースしました。

Command Palette

3D「 Volumetric」映像のストリーミング技術で道が開ける

関連リンク

Command Palette

3D「 Volumetric」映像のストリーミング技術で道が開ける

関連リンク

Command Palette

3D「 Volumetric」映像のストリーミング技術で道が開ける

関連リンク

オンラインチュートリアル | UC Berkeley/NVIDIAなどが、GPUメモリを4倍節約し、トレーニング時間を10%短縮するオープンソースの3DGSライブラリgsplatをリリースしました。

オンラインチュートリアル | UC Berkeley/NVIDIAなどが、GPUメモリを4倍節約し、トレーニング時間を10%短縮するオープンソースの3DGSライブラリgsplatをリリースしました。