
摘要
监督式深度学习在机器学习与计算机视觉领域的诸多识别问题中已取得成功应用。尽管当提供大量训练数据时,该方法能够很好地逼近复杂的多对一映射函数,但当前监督式深度学习方法缺乏概率推理能力,难以有效建模复杂的结构化输出表示。为此,本文提出一种基于高斯隐变量的可扩展深度条件生成模型,用于建模结构化输出变量。该模型在随机梯度变分贝叶斯(stochastic gradient variational Bayes)框架下高效训练,并支持通过随机前向推理实现快速预测。此外,本文还提出一系列创新策略,以构建鲁棒的结构化预测算法,包括循环预测网络架构、输入噪声注入机制以及多尺度预测训练方法。实验结果表明,相较于确定性深度神经网络,所提出的算法在利用随机推理生成多样化且逼真的输出表示方面具有显著优势。同时,所提出的训练方法与网络架构设计相辅相成,显著提升了在Caltech-UCSD Birds 200数据集以及Labeled Faces in the Wild(LFW)数据集子集上的像素级目标分割与语义标注性能。