Command Palette
Search for a command to run...
ルックアヘッド最適化アルゴリズム:kステップ前進、1ステップ後退
ルックアヘッド最適化アルゴリズム:kステップ前進、1ステップ後退
Michael R. Zhang; James Lucas; Geoffrey Hinton; Jimmy Ba
概要
成功した深層ニューラルネットワークの大部分は、確率的勾配降下法(SGD)アルゴリズムの変種を使用して訓練されています。最近のSGDの改善試みは、大きく分けて2つのアプローチに分類できます:(1) AdaGradやAdamなどの適応学習率スキームと、(2) 重い球やNesterovモメンタムなどの加速スキームです。本論文では、これらの従来のアプローチとは独立した新しい最適化アルゴリズムであるLookaheadを提案します。このアルゴリズムは、別の最適化器によって生成された高速ウェイトのシーケンスを先読みすることで、探索方向を選択します。直感的には、Lookaheadは計算量とメモリコストをほとんど増加させることなく、内側の最適化器の学習安定性を向上させ、分散を低減することが示されています。実験結果から、LookaheadがImageNet、CIFAR-10/100、神経機械翻訳、およびPenn Treebankにおいて、デフォルトのハイパーパラメータ設定でもSGDとAdamの性能を大幅に向上させることが確認できました。