5ヶ月前

概要

任意のカテゴリや事前に見られなかったカテゴリを認識することは、包括的な現実世界の3Dシーン理解に不可欠である。現状では、すべての既存手法が学習段階あるいは推論段階で2D画像またはテキストモダリティに依存している。これにより、3Dデータのみを用いて意味情報をエンドツーエンドで学習可能なモデルの明確な欠如、およびそのようなモデルを学習するための適切なデータの不足が浮き彫りになっている。一方で、3Dガウススプラッティング（3DGS）は、さまざまな視覚タスクにおける3Dシーン表現のデファクトスタンダードとして登場している。しかし、3DGSに汎用的な方法で意味的推論を効果的に統合することは、依然として未解決の課題である。こうした限界を克服するため、本研究では、3DGS上でネイティブに動作する、知る限り最初の大規模な3D屋内シーン理解アプローチ「SceneSplat」を提案する。さらに、ラベルなしシーンから豊かな3D特徴を自己教師学習によって学習可能にするスキームを提案する。これらの手法を実現するため、本研究では、屋内シーンを対象とした、初めての大規模な3DGSデータセット「SceneSplat-7K」を導入した。このデータセットは、ScanNetやMatterport3Dなど7つの既存データセットから得られた7,916シーンから構成されており、L4 GPU上で150 GPU日分の計算リソースを要して生成された。これにより、屋内シーンにおける3DGSに基づく推論のための標準化されたベンチマークが可能になった。SceneSplat-7Kを用いた包括的な実験により、提案手法が既存のベースラインに対して顕著な優位性を示したことが確認された。