CNNとランダムRNNの融合:RGB-Dオブジェクトおよびシーン認識のための多レベル分析へ

物体とシーンの認識は、画像理解において挑戦的でありながらも不可欠なタスクである。特に、RGB-Dセンサーを活用したこれらのタスクの処理は、より高精度な視覚的理解を実現するための重要な研究分野として注目されている。一方で、畳み込みニューラルネットワーク(CNN)を含む深層ニューラルネットワークは、手動で設計された特徴量を効果的な深層特徴量に置き換えることで、多くの視覚タスクに広く応用されてきた。しかし、マルチレイヤーCNNモデルから得られる深層特徴量をいかに効果的に活用するかは、依然として未解決の課題である。本論文では、物体およびシーン認識タスク向けに、マルチモーダルなRGB-D画像から判別力のある特徴表現を抽出する新たな二段階フレームワークを提案する。第一段階では、事前に学習されたCNNモデルをバックボーンとして用い、複数のレベルにおける視覚特徴を抽出する。第二段階では、再帰型ニューラルネットワーク(RNN)の完全ランダム構造を活用して、これらの特徴を高次元表現に効率的にマッピングする。CNN出力の高次元性に対処するため、RNNにおけるランダム性の概念を拡張し、ランダム重み付きプーリング方式を提案する。また、RGBストリームと深度ストリームそれぞれの識別信頼度(すなわちSVMスコア)に基づいて重みを計算し、ソフト投票方式を用いてマルチモーダル融合を実現することで、最終的なRGB-D分類性能において一貫性のあるクラスラベル推定を達成する。広範な実験により、RNN段階における完全ランダム構造がCNN活性化値を判別力のある強固な特徴に効果的に符号化できることを確認した。代表的なWashington RGB-D ObjectデータセットおよびSUN RGB-D Sceneデータセットにおける比較実験の結果、本手法は物体認識およびシーン認識の両タスクにおいて、最先端手法と同等あるいは優れた性能を達成している。コードは以下のURLで公開されている:https://github.com/acaglayan/CNN_randRNN。