2 个月前

流形混合：通过插值隐藏状态获得更好的表示

Vikas Verma; Alex Lamb; Christopher Beckham; Amir Najafi; Ioannis Mitliagkas; Aaron Courville; David Lopez-Paz; Yoshua Bengio

查看论文详情

摘要

深度神经网络在学习训练数据方面表现出色，但在评估略有不同的测试样本时，往往会产生错误且自信的预测。这包括分布偏移、异常值和对抗性样本。为了解决这些问题，我们提出了一种简单的正则化方法——流形混合（Manifold Mixup），该方法鼓励神经网络对隐藏表示的插值进行更加谨慎的预测。流形混合利用语义插值作为额外的训练信号，从而获得在多个表示层次上具有更平滑决策边界的神经网络。因此，使用流形混合训练的神经网络在学习类别表示时减少了方差方向的数量。我们在理想条件下证明了这种平坦化的理论依据，并在实际情况下进行了验证，同时将其与信息论和泛化方面的先前工作联系起来。尽管流形混合不会显著增加计算量，并且只需几行代码即可实现，但它在监督学习、对单步对抗攻击的鲁棒性和测试对数似然性方面均提升了强大的基线模型性能。