6ヶ月前

マルチモーダル

セマンティックセグメンテーション

3D マシンビジョン

マルチモーダル

コンピュータビジョン

Siqi Li Changqing Zou Yipeng Li Xibin Zhao Yue Gao

概要

本稿では、単一視点のRGB-D画像から体積的3Dシーンの占有状態およびセマンティックラベルを推定するセマンティックシーンコンプリート（SSC）タスクを対象として、注意機構を用いたマルチモーダル融合ネットワーク（AMFNet）と呼ばれるエンドツーエンドの3D畳み込みネットワークを提案する。従来の方法がRGB-D画像から抽出されたセマンティック特徴のみを用いるのに対し、本手法であるAMFNetは、RGB-D画像から2Dセマンティックセグメンテーションを推論する経験と、空間次元における信頼性の高い深度情報の両方を活用することで、効果的な3Dシーンコンプリートとセマンティックセグメンテーションを同時に行う能力を学習する。この目的を達成するために、2Dセマンティックセグメンテーションに基づいて強化されたマルチモーダル融合アーキテクチャと、残差注意ブロックによって強化された3Dセマンティックコンプリートネットワークを採用している。本手法の有効性は、合成データセットであるSUNCG-RGBDと実データセットであるNYUv2の両方で検証された結果、最先端手法と比較して、それぞれ合成データセットSUNCG-RGBDで2.5%、実データセットNYUv2で2.6%の性能向上を達成した。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

マルチモーダル

セマンティックセグメンテーション

3D マシンビジョン

マルチモーダル

コンピュータビジョン

Siqi Li Changqing Zou Yipeng Li Xibin Zhao Yue Gao

概要

本稿では、単一視点のRGB-D画像から体積的3Dシーンの占有状態およびセマンティックラベルを推定するセマンティックシーンコンプリート（SSC）タスクを対象として、注意機構を用いたマルチモーダル融合ネットワーク（AMFNet）と呼ばれるエンドツーエンドの3D畳み込みネットワークを提案する。従来の方法がRGB-D画像から抽出されたセマンティック特徴のみを用いるのに対し、本手法であるAMFNetは、RGB-D画像から2Dセマンティックセグメンテーションを推論する経験と、空間次元における信頼性の高い深度情報の両方を活用することで、効果的な3Dシーンコンプリートとセマンティックセグメンテーションを同時に行う能力を学習する。この目的を達成するために、2Dセマンティックセグメンテーションに基づいて強化されたマルチモーダル融合アーキテクチャと、残差注意ブロックによって強化された3Dセマンティックコンプリートネットワークを採用している。本手法の有効性は、合成データセットであるSUNCG-RGBDと実データセットであるNYUv2の両方で検証された結果、最先端手法と比較して、それぞれ合成データセットSUNCG-RGBDで2.5%、実データセットNYUv2で2.6%の性能向上を達成した。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています