
要約
生成モデルの新たな訓練方法として、識別モデルを用いて生成モデルの訓練をガイドする生成対抗ネットワーク(Generative Adversarial Nets: GAN)は、実数値データの生成において大きな成功を収めています。しかし、離散的なトークンのシーケンスを生成するという目標では制限があります。その主な理由は、生成モデルからの離散出力が識別モデルから生成モデルへの勾配更新を困難にしていることです。また、識別モデルは完全なシーケンスのみを評価でき、部分的に生成されたシーケンスの場合には、現在のスコアと全体のシーケンスが生成された後の将来のスコアとのバランスを取りにくいという問題があります。本論文では、これらの問題を解決するためにシーケンス生成フレームワークであるSeqGANを提案します。強化学習(Reinforcement Learning: RL)における確率的方策としてデータジェネレータをモデリングすることで、SeqGANは直接勾配方策更新を行うことでジェネレータの微分問題を回避します。RLの報酬信号は、GANの識別者が完全なシーケンスに対して判断した結果から得られ、モンテカルロ探索を使用して中間状態-行動ステップに逆伝播されます。合成データと実世界タスクにおける広範な実験により、強力な基準モデルに対する著しい改善が示されています。