
摘要
样本效率仍是强化学习中的一个根本性问题。模型基于算法通过利用模型对环境进行模拟,以更高效地利用数据。本文提出一种基于向量量化变分自编码器(VQ-VAE)的新型神经网络架构,用于世界模型的构建:该架构使用VQ-VAE对观测数据进行编码,并采用卷积长短期记忆网络(convolutional LSTM)预测下一个嵌入索引。随后,一个无模型的PPO智能体仅在世界模型生成的模拟经验上进行训练。我们采用Kaiser等人(2020)提出的实验设置,即仅允许与真实环境交互10万次。在36个Atari环境上进行实验,结果表明,我们的方法在性能上可与SimPLe算法相媲美,而模型规模则显著更小。