2ヶ月前

自己監督モデルの適応に関する多モーダル意味分割

Abhinav Valada; Rohit Mohan; Wolfram Burgard
自己監督モデルの適応に関する多モーダル意味分割
要約

信頼性のあるシーンの認識と理解を学ぶことは、ロボットが現実世界で動作するための重要な要素です。この問題は、多様な物体タイプや変動する照明・気象条件によって引き起こされる外観の変化により、本質的に困難なものとなっています。補完的なモダリティを活用することで、このような擾乱に耐える豊かな意味論的表現の学習が可能になります。近年の大きな進歩にもかかわらず、ほとんどのマルチモーダル畳み込みニューラルネットワークアプローチは、個々のモダリティストリームからの特徴マップを直接連結するため、モデルが融合のために関連する補完情報をのみに焦点を当てる能力が制限されます。この制約に対処するために、我々は自己監督的な方法で物体カテゴリー、空間位置、およびシーンコンテクストに敏感に反応しながら、モダリティ固有の特徴の融合を動的に適応させるマルチモーダルセマンティックセグメンテーションフレームワークを提案します。具体的には、2つのモダリティ固有のエンコーダストリームからなるアーキテクチャを提案し、中間エンコーダ表現を単一のデコーダに融合させるために、我々が提案した自己監督モデル適応融合メカニズムを使用します。これは最適に補完的な特徴を組み合わせます。中間表現がモダリティ間で揃っていないため、より良い相関性を得るための注意スキームを導入しました。さらに、新しいエンコーダ(multiscale residual units)と効率的な空洞空間ピラミッドプーリング(atrous spatial pyramid pooling)を持つ計算効率の高い単一モーダルセグメンテーションアーキテクチャであるAdapNet++を提案します。これにより、より広い効果的な受容野を持つ一方で10倍以上の少ないパラメータ数で高解像度詳細を回復する強力なデコーダと多解像度教師あり学習スキームが組み合わさります。複数のベンチマークにおける包括的な経験的評価により、我々の単一モーダルおよびマルチモーダルアーキテクチャが最先端の性能を達成していることが示されました。

自己監督モデルの適応に関する多モーダル意味分割 | 最新論文 | HyperAI超神経