9日前
RTMV:新視点合成のためのレイトレーシングマルチビュー合成データセット
Jonathan Tremblay, Moustafa Meshry, Alex Evans, Jan Kautz, Alexander Keller, Sameh Khamis, Thomas Müller, Charles Loop, Nathan Morrical, Koki Nagano, Towaki Takikawa, Stan Birchfield

要約
本研究では、高解像度(1600×1600ピクセル)の高品質なレイトラシングを用いて、約2000の複雑なシーンから約30万枚の画像を合成した大規模な合成データセットを提示する。このデータセットは、既存の新視点合成用合成データセットと比べて桁違いに規模が大きく、学習および評価のための統一された大規模ベンチマークを提供する。4つの異なる高品質な3Dメッシュを用いて構築された本データセットのシーンは、カメラ視点、照明、形状、素材、テクスチャなど、多様かつ困難な変化を示している。本データセットは従来の手法では処理が困難なほど規模が大きいため、新視点合成を効率的に行うための新しいアプローチとして、Sparse Voxel Light Field(SVLF)を提案する。SVLFは、スパースボクセルオクトリーを用い、レイごとにわずか数回のクエリで済む適切なボクセルサンプリング、ネットワーク構造の削減、および訓練時に真値の深度マップを活用することで、NeRFと同等の性能を達成しつつ、学習速度が1桁速く、レンダリング速度が2桁速くなる。本データセットは、非専門家でも使いやすく共有しやすいように設計されたPythonベースのレイトラシングレンダラー「NViSII」によって生成された。NViSIIはスクリプティングによる柔軟性と強力な機能性を備え、物理ベースの高品質な画像生成が可能である。本データセットのサブセットを用いた実験により、単一シーンモデリングにおけるNeRFやmip-NeRFといった標準的手法、およびカテゴリレベルモデリングにおけるpixelNeRFとの比較が可能となり、今後のこの分野におけるさらなる改善の必要性が示唆された。