NVIDIA、新AIモデル「DiffusionRenderer」を公開:単一の動画から編集可能な写実的3Dシーンを生成 この新しいフレームワークは、単一の動画から3Dシーンの理解と操作を統合し、AIによるコンテンツ制作の真の創造性を解き放つ革新的な技術です。従来のPBR手法では困難だった現実世界のデータの不完全さを補完し、映画製作者やデザイナーが簡単に高品質な映像編集を実現できる道を開きました。
NVIDIAが発表した新AIモデル「DiffusionRenderer」により、単一のビデオから編集可能な写実的な3Dシーンを作成することが可能になりました。これまではAIを使った美しいビデオの生成だけではなく、プロ並みにリアルにビデオを編集できず、光源を夜に変更したり、オブジェクトの素材を木から金属に変えたり、シーンに新しい要素をシームレスに挿入するといった高度な編集機能が欠けていました。この課題は、映画製作者、デザイナー、クリエイターらにとってAIが創造ツールとして基盤的なものとなる大きな障壁となっていました。 DiffusionRendererの登場により、このギャップが埋まりました。従来の方法と比べると、DiffusionRendererは逆レンダリングとフォワードレンダリングを統合したフレームワークで、高品質なリフレクションやシャドウを生成します。さらに、合成データと実世界のデータを共に学習することで、「ドメインギャップ」を克服し、不完全なデータも正確に処理します。 研究者たちはまず、15万本のビデオからなる大規模な合成データセットを构建しました。3Dオブジェクト、PBRマテリアル、HDRライティングマップを使用して、完璧なパストレーシングエンジンで複雑なシーンを作り出すことで、逆レンダリングモデルが理想的な状態から学べるよう設計しました。次に、この逆レンダリングモデルを実際の10,510本のビデオに適用し、自動的にGバッファラベルを生成しました。これにより、15万サンプルもの実世界のシーンとそれに相当する固有のプロパティマップを含む巨大データセットが得られました。 フォワードレンダリングモデルは、この完璧な合成データと自動ラベル付けされた実世界データを同時に学習することで、物理法則と実際の見た目とのバランスを学びました。不正確なデータへの対応力も高めることで、モデルはより頑健になりました。 実際の性能評価では、DiffusionRendererは従来の古典的手法や最新の神経ネットワークによる方法に対し、一貫して圧倒的な成果を示しています。特にフォワードレンダリングでは、パストレーシングのGround Truthと比較しても非常に高い品質の出力結果を得ています。 DiffusionRendererは、単一の普通のビデオから始めることが可能です。モデルが逆レンダリングを行い、シーンを理解し、ユーザーが編集できるプロパティを提供します。ユーザーが希望通りの編集を行った後、モデルが再びフォワードレンダリングを行い、新しい写実的なビデオを生成します。これにより、専門的なVFXチームや高性能なハードウェアを持つ人々に限定されていた高い写実性を、クリエイター、デザイナー、AR/VR開発者など広く誰でも利用できるようにしました。 この突破的研究成果により、DiffusionRendererはグラフィックスの新たな基盤となる可能性を持っています。AIの創造ツールとしての利用範囲が大きく拡大し、より多くの人々が高品質なビジュアルコンテントを制作できる道が開かれました。NVIDIAや関連研究機関のさらなる支援によって、将来的にはより高性能なビデオ DIFFusionモデルが登場し、出力品質がさらに向上することが期待されています。 このモデルはApache 2.0ライセンスとNVIDIAオープンモデlijahンスの下で公開されており、誰でも利用できます。NVIDIAチームは、本研究の一環として、ビデオからの照明除去と再照明の質を向上させるためにNVIDIA Cosmosを利用し、さらに充実したデータキュレーションを実施しています。これらの改善により、技術的な魅力が一層高まっています。 NVIDIAは長年、グラフィックス技术和AI技術の開発に尽力してきました。DiffusionRendererの発表は、彼らの革新的な取り組みが結実した証であり、今後の進展にも注目が集まっています。