2 个月前

关于Mixup训练:提高深度神经网络的校准和预测不确定性

Sunil Thulasidasan; Gopinath Chennupati; Jeff Bilmes; Tanmoy Bhattacharya; Sarah Michalak
关于Mixup训练:提高深度神经网络的校准和预测不确定性
摘要

Mixup~\cite{zhang2017mixup} 是一种最近提出的方法,用于在训练过程中通过凸组合随机图像对及其相关标签生成额外样本以训练深度神经网络。尽管实现简单,但该方法已被证明是图像分类中数据增强的一种非常有效的方法:使用 Mixup 训练的深度神经网络(DNNs)在多个图像分类基准测试中表现出显著的性能提升。在这项工作中,我们讨论了 Mixup 训练的一个尚未涉及的方面——即使用 Mixup 训练模型的校准和预测不确定性。我们发现,使用 Mixup 训练的 DNNs 比常规训练的 DNNs 具有显著更好的校准效果——也就是说,预测的 Softmax 分数更能准确反映正确预测的实际概率。我们在多种图像分类架构和数据集上进行了实验,包括大规模数据集如 ImageNet,并得出了这一结论。此外,我们还发现仅混合特征并不能带来同样的校准优势,而 Mixup 训练中的标签平滑起到了重要作用,显著提高了校准效果。最后,我们观察到使用 Mixup 训练的 DNNs 在处理分布外数据和随机噪声数据时较少出现过度自信的预测。我们得出结论,即使在分布内数据上,神经网络通常表现出的过度自信很可能是由于使用硬标签进行训练的结果,这表明在预测不确定性是一个重要关注点的分类任务中应考虑采用 Mixup 方法。

关于Mixup训练:提高深度神经网络的校准和预测不确定性 | 最新论文 | HyperAI超神经