2 个月前
告知、绘制与重复:基于持续语言指令的图像生成与修改
Alaaeldin El-Nouby; Shikhar Sharma; Hannes Schulz; Devon Hjelm; Layla El Asri; Samira Ebrahimi Kahou; Yoshua Bengio; Graham W.Taylor

摘要
条件文本到图像生成是一个活跃的研究领域,具有广泛的应用前景。现有的研究主要集中在利用可用的条件信息一次性生成单个图像。一种超越一次性生成的实际扩展是构建一个系统,该系统能够根据持续的语言输入或反馈迭代地生成图像。这比一次性生成任务要困难得多,因为这样的系统必须理解其生成图像的内容,不仅包括反馈历史和当前反馈,还包括反馈历史中概念之间的相互作用。在本工作中,我们提出了一种递归图像生成模型,该模型同时考虑了当前步骤之前的所有生成输出以及所有过去的生成指令。我们展示了我们的模型能够生成背景、添加新对象并对现有对象进行简单的变换。我们认为我们的方法是朝着交互式生成迈出的重要一步。代码和数据可从以下网址获取:https://www.microsoft.com/en-us/research/project/generative-neural-visual-artist-geneva/ 。