
要約
2D画像からオープンボキャブラリのシーン理解を伴う3D構造の復元は、基本的な課題である一方で非常に困難なタスクです。最近の発展では、埋め込まれた言語情報を使用してシーンごとの最適化を行うことでこれを達成しています。しかし、これらの手法はキャリブレーションされた高密度ビュー再構築パラダイムに大きく依存しており、限られたビューが利用可能な場合、深刻なレンダリングアーティファクトや非現実的な意味合成が生じるという問題があります。本論文では、新たな生成フレームワーク「LangScene-X」を提案し、再構築と理解のために3D一貫性のある多様なモダリティ情報を統合および生成します。より一貫性のある新しい観測値を作成する生成能力により、疎なビューのみから汎用的な3D言語埋め込みシーンを構築することが可能となります。具体的には、まず進行的な知識統合を通じて疎な入力から外観(RGB)、形状(法線)、意味(セグメンテーションマップ)を生成できるTriMapビデオ拡散モデルを訓練します。さらに、大規模画像データセットで訓練されたLanguage Quantized Compressor (LQC) を提案し、各シーンの再トレーニングなしに言語エンベディングを効率的に符号化することで、異なるシーン間での汎化を可能とします。最後に、3Dシーンの表面に言語情報を合わせることで言語表面フィールドを再構築し、オープンエンドの言語クエリに対応します。実世界データに対する広範な実験結果は、LangScene-Xが既存の最先端手法よりも品質と汎化能力において優れていることを示しています。プロジェクトページ: https://liuff19.github.io/LangScene-X.