HyperAIHyperAI

Command Palette

Search for a command to run...

SeqGAN: ポリシーグラディエントを使用したシーケンス生成敵対ネットワーク

Lantao Yu†, Weinan Zhang‡*, Jun Wang†, Yong Yu†

概要

生成モデルの新たな訓練方法として、識別モデルを用いて生成モデルの訓練をガイドする生成対抗ネットワーク(Generative Adversarial Nets: GAN)は、実数値データの生成において大きな成功を収めています。しかし、離散的なトークンのシーケンスを生成するという目標では制限があります。その主な理由は、生成モデルからの離散出力が識別モデルから生成モデルへの勾配更新を困難にしていることです。また、識別モデルは完全なシーケンスのみを評価でき、部分的に生成されたシーケンスの場合には、現在のスコアと全体のシーケンスが生成された後の将来のスコアとのバランスを取りにくいという問題があります。本論文では、これらの問題を解決するためにシーケンス生成フレームワークであるSeqGANを提案します。強化学習(Reinforcement Learning: RL)における確率的方策としてデータジェネレータをモデリングすることで、SeqGANは直接勾配方策更新を行うことでジェネレータの微分問題を回避します。RLの報酬信号は、GANの識別者が完全なシーケンスに対して判断した結果から得られ、モンテカルロ探索を使用して中間状態-行動ステップに逆伝播されます。合成データと実世界タスクにおける広範な実験により、強力な基準モデルに対する著しい改善が示されています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています