HyperAIHyperAI

Command Palette

Search for a command to run...

変形可能 Attention Transformer を用いた拡散ベースの RGB-D セマンティックセグメンテーション

Minh Bui Kostas Alexis

概要

視覚に基づく認識と推論は、あらゆる自律システムにおけるシーン理解に不可欠である。RGB画像と深度画像は、環境の意味的特徴および幾何学的特徴を同時に捉えるために広く用いられている。現実世界の応用においてはノイズが避けがたい場合が多く、このデータを信頼性高く解釈する手法の開発が重要である。本研究では、RGB-Dセマンティックセグメンテーション問題に対処するため、拡散モデル(diffusion-based)に基づくフレームワークを提案する。さらに、深度画像から特徴を抽出するエンコーダとして可変アテンション変換器(Deformable Attention Transformer)を活用することで、深度測定における無効領域(invalid regions)の特性を効果的に捉えることができることを示した。本研究で提案する生成型フレームワークは、RGB-D画像の背後にある分布をより豊かにモデル化する能力を有しており、従来の識別型手法と比較して著しく短い学習時間で、困難なシナリオにおいても堅牢な性能を発揮する。実験結果から、本手法はNYUv2およびSUN-RGBDデータセットにおいて、特にこれらのデータセットで最も挑戦的な画像データに対して、一般状況下で最先端(State-of-the-Art)の性能を達成することが明らかになった。プロジェクトページは、https://diffusionmms.github.io/ にて公開予定である。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
変形可能 Attention Transformer を用いた拡散ベースの RGB-D セマンティックセグメンテーション | 記事 | HyperAI超神経