11 天前
语义感知的场景识别
Alejandro López-Cifuentes, Marcos Escudero-Viñolo, Jesús Bescós, Álvaro García-Martín

摘要
场景识别目前是计算机视觉领域最具挑战性的研究方向之一。这一挑战部分源于类别之间的模糊性:多个场景类别可能包含相似的物体,从而导致类别间混淆。当某一场景类别的图像差异显著时,该问题进一步加剧。尽管卷积神经网络(CNN)在场景识别任务中显著提升了性能,但其表现仍远低于其他识别任务(如物体识别或图像识别)。本文提出一种基于端到端多模态CNN的新型场景识别方法,该方法通过注意力模块融合图像与上下文信息。上下文信息以语义分割的形式提供,用于调控从RGB图像中提取的特征,其依据是语义表征中编码的信息——即场景中的物体与背景元素(stuff)及其相对位置。该门控机制能够强化对典型场景内容的学习,并通过重新聚焦CNN的感受野,有效提升场景的可区分性。在四个公开可用数据集上的实验结果表明,所提出的方法在性能上超越了所有现有最先进方法,同时显著减少了网络参数量。本文所使用的所有代码与数据均可在 https://github.com/vpulab/Semantic-Aware-Scene-Recognition 获取。