1ヶ月前
ドロップアウトの限界を押し広げる
Gábor Melis; Charles Blundell; Tomáš Kočiský; Karl Moritz Hermann; Chris Dyer; Phil Blunsom

要約
我々は、ドロップアウト訓練が、元のドロップアウト目的関数に下界を与える一連の条件付きモデルのMAP推定を同時に行っているものとして最も適切に理解できることを示します。この発見により、訓練後にこのモデル群から任意のモデルを選択することが可能となり、正則化に重きを置いた言語モデリングにおいて大幅な改善がもたらされます。このモデル群には、サンプリングされたドロップアウトマスクに対してべき乗平均を計算するモデルと、完全に確率的なドロップアウト目的関数よりも厳密で高い下界を持つその部分変種が含まれます。我々は、決定論的な部分変種の下界がその目的関数と等しく、これらのモデルの中で最高であるため、それをMC平均への良い近似として捉える一般的な見方が誤導的であると主張します。むしろ、決定論的なドロップアウトは真の目的関数への最良の利用可能な近似であると言えます。