HyperAI超神经
Back to Headlines

MIT与斯坦福联手打造SketchAgent:AI草图绘制系统媲美人类创造力

6 days ago

麻省理工学院计算机科学与人工智能实验室(CSAIL)与斯坦福大学的研究人员开发了一种新的绘图系统,称为“SketchAgent”,该系统能够像人类一样快速地将自然语言提示转化为草图。SketchAgent使用多模态语言模型,如Anthropic的Claude 3.5 Sonnet,能够在几秒钟内根据文字描述生成图像。这个系统的独特之处在于它模拟了人类画画的过程,每一步都通过连续的笔画来完成,从而让生成的图像更加自然和流畅。 研究人员展示了SketchAgent可以绘制各种抽象概念,包括机器人、蝴蝶、DNA螺旋、流程图,甚至是悉尼歌剧院等复杂结构。该工具不仅能够独立完成绘图,还可以与人类协作,甚至通过文字输入分步骤完成不同部分。这为未来的互动艺术游戏提供了可能,帮助教师和研究者更直观地解释复杂概念,或者为用户快速提供绘画指导。 领导这项研究的是CSAIL的博士后研究员雅艾尔·文克尔(Yael Vinker),她指出:“SketchAgent引入了一种更自然的方式,让人们与AI进行交流。日常生活中,我们常常通过草图来表达想法或讨论概念,我们的工具旨在模拟这一过程,使多模态语言模型在视觉表达方面更加有用。” 文克尔与其他三位来自CSAIL的研究人员——博士后研究员塔玛尔·罗特·沙哈姆(Tamar Rott Shaham)、本科生研究员亚历克斯·肇(Alex Zhao)以及MIT教授安东尼奥·托拉尔巴(Antonio Torralba),以及斯坦福大学的研究员克里斯汀·郑(Kristine Zheng)和助理教授朱迪思·埃伦·范(Judith Ellen Fan)共同撰写了这篇论文。他们将在本月举行的2025年计算机视觉与模式识别会议(CVPR)上展示这一成果。 尽管诸如DALL-E 3等文本到图像的模型能够生成引人入胜的图画,但它们缺乏人类绘画时的即时创作感。每一步笔触都会影响整体设计,而SketchAgent正是通过这种方式使得其生成的图像更接近人类的手绘作品。此前的工作大多通过从人类手绘数据集中训练模型来实现这一点,但这些数据集通常规模小且种类单一。SketchAgent则利用预训练的语言模型,在不依赖实际手绘数据的情况下,学会了如何按步绘制多样化的概念。 研究人员测试了SketchAgent在合作模式下的表现,即人与语言模型共同完成一项绘图任务。结果显示,SketchAgent的贡献对于最终的草图至关重要。例如,在绘制帆船时,移除代表桅杆的AI生成笔触会使整个画面变得难以辨认。沙哈姆认为:“随着模型在理解和生成其他模态(如草图)方面的进步,用户可以更直观、更人性化地表达想法,从而大大丰富了与AI的互动方式,使得AI更加易用和多功能。” 然而,尽管SketchAgent的绘图能力令人振奋,但它目前还不能生成专业的绘图。它主要使用简单的线条和涂鸦来表示概念,但在绘制标志、句子、复杂的生物如独角兽和奶牛,以及特定的人类形象时,仍存在困难。此外,在与人类合作绘图时,模型有时会误解用户的意图,例如绘制了一只双头的小兔子。这可能是由于模型将每个任务分解为多个步骤(称为“链式思维”推理),在与人类协作时可能会错判人类贡献的部分。 未来,研究团队计划进一步优化SketchAgent的交互界面和绘图技能,使其更容易与多模态语言模型进行互动和创作。尽管如此,这款工具已经表明,AI可以像人类一样逐步绘图,通过人机协同合作,实现更加统一的设计结果。

Related Links