17 天前

通过组合算法的反向传播:与投影的恒等性有效

Subham Sekhar Sahoo, Anselm Paulus, Marin Vlastelica, Vít Musil, Volodymyr Kuleshov, Georg Martius
通过组合算法的反向传播:与投影的恒等性有效
摘要

将离散求解器嵌入为可微分层,赋予了现代深度学习架构组合表达能力和离散推理能力。然而,这些求解器的导数通常为零或未定义,因此在基于梯度的学习中,必须引入有意义的替代机制。以往方法主要依赖于对输入进行扰动以平滑求解器、将求解问题松弛为连续优化问题,或采用插值损失曲面的技术,但这些方法通常需要额外的求解器调用,引入额外超参数,或牺牲性能。本文提出一种原理性方法,利用离散解空间的几何结构,在反向传播过程中将求解器视为负恒等映射,并进一步提供理论支持。实验结果表明,这种简洁且无需超参数的方法在多项任务中能够与此前更为复杂的算法相媲美,包括通过离散采样器的反向传播、深度图匹配以及图像检索等。此外,我们用一种通用的正则化策略替代了先前针对特定问题且依赖标签的边界机制,有效防止了代价坍缩(cost collapse)现象,显著提升了模型的鲁棒性。