2 个月前

生成图像作为行为模型

Mohit Shridhar; Yat Long Lo; Stephen James
生成图像作为行为模型
摘要

图像生成扩散模型已经经过微调,以解锁新的功能,如图像编辑和新视角合成。我们能否类似地为视觉运动控制解锁图像生成模型?本文介绍了GENIMA,一种通过微调Stable Diffusion来在RGB图像上“绘制关节动作”作为目标的行为克隆代理。这些图像被输入到一个控制器中,该控制器将视觉目标映射为一系列关节位置。我们在25个RLBench任务和9个现实世界操作任务上对GENIMA进行了研究。结果表明,通过将动作提升到图像空间,互联网预训练的扩散模型可以生成优于当前最先进的视觉运动方法的策略,特别是在对场景扰动的鲁棒性和对新物体的泛化能力方面。尽管缺乏深度、关键点或运动规划器等先验知识,我们的方法仍然与3D代理具有竞争力。

生成图像作为行为模型 | 最新论文 | HyperAI超神经