
摘要
场景解析是计算机视觉领域的一项具有挑战性的任务,通常可建模为像素级分类问题。现有的基于深度学习的方法通常采用单一通用分类器来识别所有物体类别。然而,当面对外观或语义相似的混淆类别时,通用分类器容易产生误分类。为此,本文提出了一种集成分类模型与基于方差的正则化方法,以实现更精确的分类结果。一方面,所提出的集成分类模型包含多个分类器,不仅包含通用分类器,还引入了一个精细化分类器,专门用于区分易混淆的类别。另一方面,基于方差的正则化策略旨在最大化各类别得分之间的差异,从而降低误分类的可能性。具体而言,该集成分类模型包含三个步骤:首先,提取每个像素的特征表示;其次,基于提取的特征,对每个像素在所有类别上进行分类,生成初步分类结果;第三步,利用精细化分类器对初步结果进行优化,重点区分那些初步得分较高的类别。整个模型通过融合基于方差正则化的集成损失函数进行端到端训练。在三个常用场景解析数据集上的大量实验结果表明,所提出方法在分类精度上显著优于现有方法,验证了其有效性与优越性。