17日前

マルチモーダル素材セグメンテーション

{Ko Nishino, Shohei Nobuhara, Ryosuke Wakaki, Yupeng Liang}
マルチモーダル素材セグメンテーション
要約

視覚的外観からの素材認識は、現実世界との相互作用を伴うコンピュータビジョンタスクにおいて不可欠である。特に、素材の密なピクセル単位の認識である素材セグメンテーションは、物体とは異なり、通常のRGB画像において明確な視覚的特徴を示さないため、依然として困難な課題である。しかし、異なる素材はそれぞれ異なる放射計測的挙動を示すため、RGB以外の画像モダリティによってその差異を捉えることが可能である。本研究では、RGB画像、偏光画像、近赤外画像のマルチモーダルデータから素材セグメンテーションを実現する。そこで、マルチモーダル素材セグメンテーション(MultiModal Material Segmentation)を意味するMCubeSデータセットを提案する。このデータセットには、42の街並みシーンを対象にした500セットのマルチモーダル画像が含まれており、各画像および各ピクセルについて、素材セグメンテーションおよび意味セグメンテーションの真値ラベルが付与されている。さらに、各素材クラスに応じて最も情報量の高いモダリティの組み合わせに注目する能力を学習する新しい深層ニューラルネットワークMCubeSNetを提案する。このネットワークでは、新しく導入された領域ガイド付きフィルタ選択(Region-Guided Filter Selection: RGFS)層を用いて、意味セグメンテーションの事前知識を活用してフィルタ選択をガイドする。筆者らの知る限り、本研究は真正のマルチモーダル素材セグメンテーションに関する初めての包括的研究である。本研究の成果は、安全が重要な応用分野における素材情報の実用的活用に新たな道を開くものと確信している。