6ヶ月前

概要

視覚に基づく認識と推論は、あらゆる自律システムにおけるシーン理解に不可欠である。RGB画像と深度画像は、環境の意味的特徴および幾何学的特徴を同時に捉えるために広く用いられている。現実世界の応用においてはノイズが避けがたい場合が多く、このデータを信頼性高く解釈する手法の開発が重要である。本研究では、RGB-Dセマンティックセグメンテーション問題に対処するため、拡散モデル（diffusion-based）に基づくフレームワークを提案する。さらに、深度画像から特徴を抽出するエンコーダとして可変アテンション変換器（Deformable Attention Transformer）を活用することで、深度測定における無効領域（invalid regions）の特性を効果的に捉えることができることを示した。本研究で提案する生成型フレームワークは、RGB-D画像の背後にある分布をより豊かにモデル化する能力を有しており、従来の識別型手法と比較して著しく短い学習時間で、困難なシナリオにおいても堅牢な性能を発揮する。実験結果から、本手法はNYUv2およびSUN-RGBDデータセットにおいて、特にこれらのデータセットで最も挑戦的な画像データに対して、一般状況下で最先端（State-of-the-Art）の性能を達成することが明らかになった。プロジェクトページは、https://diffusionmms.github.io/ にて公開予定である。

ソースPDF