17日前
組み合わせアルゴリズムを介した誤差逆伝播:射影による恒等性が有効である
Subham Sekhar Sahoo, Anselm Paulus, Marin Vlastelica, Vít Musil, Volodymyr Kuleshov, Georg Martius

要約
離散ソルバーを微分可能なレイヤーとして埋め込むことで、現代の深層学習アーキテクチャは組合せ的表現力および離散的推論能力を獲得した。しかしながら、これらのソルバーの微分はゼロまたは未定義となるため、効果的な勾配ベース学習を行うためには意味のある代替手法が不可欠である。従来の手法は、入力の摂動によるソルバーの平滑化、離散問題を連続問題に緩和する、あるいは損失関数の形状を補間する技術を用いるが、これらは通常、追加のソルバー呼び出しを必要とし、追加のハイパーパラメータを導入するか、性能を損なうといった課題を抱えている。本研究では、離散解空間の幾何構造を活用する原理的なアプローチを提案し、逆伝播においてソルバーを「負の単位演算」として扱うとともに、その理論的根拠を提示する。実験結果から、本手法は単純かつハイパーパラメータを必要としないにもかかわらず、離散サンプラーを介した逆誤差伝搬、深層グラフマッチング、画像検索といった多数のタスクにおいて、従来のより複雑な手法と同等の性能を達成できることを示した。さらに、従来の問題固有かつラベル依存のマージン手法を、コストの崩壊を防ぎ、モデルの堅牢性を向上させる汎用的な正則化手順に置き換えた。