13 天前
当CNN遇见随机RNN:面向RGB-D物体与场景识别的多层级分析
Ali Caglayan, Nevrez Imamoglu, Ahmet Burak Can, Ryosuke Nakamura

摘要
识别物体与场景是图像理解中两项具有挑战性但至关重要的任务。尤其值得注意的是,RGB-D传感器在处理这些任务中的应用已成为提升视觉理解能力的重要研究方向。与此同时,深度神经网络,特别是卷积神经网络(Convolutional Neural Networks, CNNs),已得到广泛应用,并通过用高效的深度特征替代手工设计的特征,成功应用于多种视觉任务。然而,如何有效利用多层CNN模型所提取的深度特征,仍是一个开放性问题。本文提出一种新颖的两阶段框架,旨在从多模态RGB-D图像中提取具有判别性的特征表示,以实现物体与场景识别。在第一阶段,采用预训练的CNN模型作为主干网络,从多个层次提取视觉特征。第二阶段则通过一种完全随机结构的循环神经网络(Recurrent Neural Networks, RNNs)高效地将这些特征映射为高层语义表示。为应对CNN激活值的高维特性,本文提出了一种基于RNN随机性思想的随机加权池化策略,有效降低了特征维度并增强了表示能力。在多模态融合方面,采用基于软投票机制的方法,通过分别计算RGB流与深度流的个体识别置信度(即支持向量机SVM得分)来确定融合权重,从而实现跨模态信息的自适应融合。该方法在最终的RGB-D分类性能中表现出一致且可靠的类别标签估计。大量实验验证表明,RNN阶段采用完全随机结构能够成功将CNN激活值编码为具有强判别性的紧凑特征。在主流的Washington RGB-D物体数据集和SUN RGB-D场景数据集上的对比实验结果表明,所提出方法在物体识别与场景识别任务中均达到或优于当前最先进的技术水平。相关代码已开源,地址为:https://github.com/acaglayan/CNN_randRNN。