3ヶ月前

注意メカニズムを用いたマルチモーダル融合ネットワークによる意味的シーンコンプリート

Siqi Li, Changqing Zou, Yipeng Li, Xibin Zhao, Yue Gao
注意メカニズムを用いたマルチモーダル融合ネットワークによる意味的シーンコンプリート
要約

本稿では、単一視点のRGB-D画像から体積的3Dシーンの占有状態およびセマンティックラベルを推定するセマンティックシーンコンプリート(SSC)タスクを対象として、注意機構を用いたマルチモーダル融合ネットワーク(AMFNet)と呼ばれるエンドツーエンドの3D畳み込みネットワークを提案する。従来の方法がRGB-D画像から抽出されたセマンティック特徴のみを用いるのに対し、本手法であるAMFNetは、RGB-D画像から2Dセマンティックセグメンテーションを推論する経験と、空間次元における信頼性の高い深度情報の両方を活用することで、効果的な3Dシーンコンプリートとセマンティックセグメンテーションを同時に行う能力を学習する。この目的を達成するために、2Dセマンティックセグメンテーションに基づいて強化されたマルチモーダル融合アーキテクチャと、残差注意ブロックによって強化された3Dセマンティックコンプリートネットワークを採用している。本手法の有効性は、合成データセットであるSUNCG-RGBDと実データセットであるNYUv2の両方で検証された結果、最先端手法と比較して、それぞれ合成データセットSUNCG-RGBDで2.5%、実データセットNYUv2で2.6%の性能向上を達成した。

注意メカニズムを用いたマルチモーダル融合ネットワークによる意味的シーンコンプリート | 論文 | HyperAI超神経