6 个月前

Subham Sekhar Sahoo Anselm Paulus Marin Vlastelica Vít Musil Volodymyr Kuleshov Georg Martius

摘要

将离散求解器嵌入为可微分层，赋予了现代深度学习架构组合表达能力和离散推理能力。然而，这些求解器的导数通常为零或未定义，因此在基于梯度的学习中，必须引入有意义的替代机制。以往方法主要依赖于对输入进行扰动以平滑求解器、将求解问题松弛为连续优化问题，或采用插值损失曲面的技术，但这些方法通常需要额外的求解器调用，引入额外超参数，或牺牲性能。本文提出一种原理性方法，利用离散解空间的几何结构，在反向传播过程中将求解器视为负恒等映射，并进一步提供理论支持。实验结果表明，这种简洁且无需超参数的方法在多项任务中能够与此前更为复杂的算法相媲美，包括通过离散采样器的反向传播、深度图匹配以及图像检索等。此外，我们用一种通用的正则化策略替代了先前针对特定问题且依赖标签的边界机制，有效防止了代价坍缩（cost collapse）现象，显著提升了模型的鲁棒性。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

Subham Sekhar Sahoo Anselm Paulus Marin Vlastelica Vít Musil Volodymyr Kuleshov Georg Martius

摘要

将离散求解器嵌入为可微分层，赋予了现代深度学习架构组合表达能力和离散推理能力。然而，这些求解器的导数通常为零或未定义，因此在基于梯度的学习中，必须引入有意义的替代机制。以往方法主要依赖于对输入进行扰动以平滑求解器、将求解问题松弛为连续优化问题，或采用插值损失曲面的技术，但这些方法通常需要额外的求解器调用，引入额外超参数，或牺牲性能。本文提出一种原理性方法，利用离散解空间的几何结构，在反向传播过程中将求解器视为负恒等映射，并进一步提供理论支持。实验结果表明，这种简洁且无需超参数的方法在多项任务中能够与此前更为复杂的算法相媲美，包括通过离散采样器的反向传播、深度图匹配以及图像检索等。此外，我们用一种通用的正则化策略替代了先前针对特定问题且依赖标签的边界机制，有效防止了代价坍缩（cost collapse）现象，显著提升了模型的鲁棒性。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

通过组合算法的反向传播：与投影的恒等性有效 | 论文 | HyperAI超神经