2ヶ月前

シーケンス予測のためのアクターキリックアルゴリズム

Dzmitry Bahdanau; Philemon Brakel; Kelvin Xu; Anirudh Goyal; Ryan Lowe; Joelle Pineau; Aaron Courville; Yoshua Bengio
シーケンス予測のためのアクターキリックアルゴリズム
要約

強化学習(Reinforcement Learning: RL)のアクター・クリティック手法を用いて、ニューラルネットワークがシーケンスを生成するためのアプローチを提案します。現在の対数尤度トレーニング手法は、トレーニングモードとテストモードの間の乖離により制限されています。つまり、モデルは真のトークンではなく、前の推測に基づいてトークンを生成しなければならないためです。この問題に対処するために、\textit{アクター}ネットワークのポリシーに基づいて出力トークンの価値を予測するように訓練された\textit{クリティック}ネットワークを導入します。これにより、トレーニング手順がテストフェーズに非常に近くなり、BLEUなどのタスク固有のスコアに対して直接最適化することが可能になります。重要な点は、これらの技術を伝統的なRL設定ではなく、教師あり学習設定で活用していることです。したがって、クリティックネットワークは真の出力に基づいて条件付けられます。我々の方法が合成タスクおよびドイツ語-英語機械翻訳において性能向上につながることを示しています。本研究の分析は、機械翻訳やキャプション生成、対話モデリングなどの自然言語生成タスクへのこのような手法の適用に道を開きます。

シーケンス予測のためのアクターキリックアルゴリズム | 最新論文 | HyperAI超神経