2달 전

SeqGAN: 정책 그래디언트를 사용한 시퀀스 생성적 적대 네트워크

Lantao Yu; Weinan Zhang; Jun Wang; Yong Yu
SeqGAN: 정책 그래디언트를 사용한 시퀀스 생성적 적대 네트워크
초록

새로운 생성 모델 훈련 방법으로, 생성 모델의 훈련을 안내하기 위해 판별 모델을 사용하는 생성적 적대 네트워크(Generative Adversarial Nets, GAN)는 실수 데이터 생성에서 상당한 성공을 거두었습니다. 그러나, 이산 토큰 시퀀스를 생성하는 데에는 한계가 있습니다. 주요 이유 중 하나는 생성 모델의 이산 출력이 판별 모델에서 생성 모델로 그래디언트 업데이트를 전달하는 것을 어렵게 만드는 것입니다. 또한, 판별 모델은 완전한 시퀀스만 평가할 수 있으며, 부분적으로 생성된 시퀀스에 대해서는 전체 시퀀스가 생성된 후 현재 점수와 미래의 점수 사이의 균형을 잡는 것이 쉽지 않습니다. 본 논문에서는 이러한 문제들을 해결하기 위한 시퀀스 생성 프레임워크인 SeqGAN을 제안합니다. 강화 학습(Reinforcement Learning, RL)에서 데이터 생성기를 확률적 정책으로 모델링하여, SeqGAN은 직접 그래디언트 정책 업데이트를 수행함으로써 생성기 미분 문제를 우회합니다. RL 보상 신호는 GAN 판별자가 완성된 시퀀스에 대해 판단한 결과로부터 나옵니다. 이 신호는 몬테카를로 검색(Monte Carlo search)을 통해 중간 상태-행동 단계로 반환됩니다. 합성 데이터와 실제 작업에 대한 광범위한 실험 결과, SeqGAN이 강력한 기준모델들보다 유의미하게 개선되었음을 보여주고 있습니다.

SeqGAN: 정책 그래디언트를 사용한 시퀀스 생성적 적대 네트워크 | 최신 연구 논문 | HyperAI초신경