HyperAIHyperAI

Command Palette

Search for a command to run...

MIT CSAIL与斯坦福大学联手打造“SketchAgent”:能像人类一样素描的AI系统

麻省理工学院计算机科学与人工智能实验室(CSAIL)和斯坦福大学的研究团队最新开发了一种名为“SketchAgent”的绘画系统,旨在让AI模型更像人类一样绘制草图。通过使用多模态语言模型(能够同时处理文本和图像数据的AI系统),SketchAgent可以在几秒钟内将自然语言指令转化为简笔画或涂鸦。这个新工具不仅能独立完成绘制任务,还可以与人类协作或多模态语言模型结合,分步骤绘制复杂的图案。 SketchAgent的设计灵感来源于人类日常生活中的绘图习惯,例如在讨论中用简笔画表达想法或记录思考过程。研究团队希望通过这一工具,使多模态语言模型在视觉表达方面更具实用性,帮助教师和研究人员绘制复杂概念示意图,或为用户提供快速绘图指导。系统的关键创新在于它采用了一个“绘图语言”,即用编号序列将每一个绘制动作对应到网格上的一个特定位置,每个动作都有具体的标签,如绘制房门的第七个动作被标注为“前门”。这种设定让SketchAgent能够在没有现成人类绘制样本数据库的情况下,学习如何从零开始绘制新的概念。 研究团队进行了详细的评估,比较了SketchAgent与传统文本到图像生成模型(如DALL-E 3)的绘制能力。结果显示,虽然DALL-E 3可以生成有趣的图像,但其缺乏人类绘图过程中即兴创造的特点,而SketchAgent则能模拟绘制过程,通过一系列步骤自然地构建出完整的草图。研究人员还测试了SketchAgent在协作模式下的表现,即人类与模型共同完成一幅画。测试表明,SketchAgent的贡献对最终作品至关重要,比如在绘制帆船时,AI部分所勾勒的桅杆对整体形象的识别起到了关键作用。 尽管SketchAgent展示了巨大的潜力,它仍然存在一些限制。目前,该工具只能生成简单概念的简笔画,如房子、机器人、蝴蝶等,但在绘制Logo、句子、复杂生物或特定的人物形象时表现出困难。此外,在协作绘制过程中,模型有时会误解用户的意图,例如,它曾画出一只两个头的小兔子,这可能是因为模型将其任务分解为多个小步骤,无法准确判断用户正在贡献的部分。不过,研究团队计划未来通过合成数据训练进一步优化模型,使其更加精准和高效。 研究人员表示,SketchAgent的出现不仅为AI与人类的合作开辟了新的方式,还有望显著丰富用户与AI的互动体验,使其更加直观和人性化。CSAIL博士后研究员亚历山大·奥绍、斯坦福大学研究员克里斯汀·郑以及助理教授朱迪思·埃伦·范等人也将于本月在2025年计算机视觉与模式识别会议(CVPR)上展示他们的研究成果。 业内人士认为,SketchAgent的推出是一个重要的里程碑,表明AI在多模态交互领域正在取得实质性进展。麻省理工学院教授安东尼奥·托拉尔巴指出,随着AI模型在理解和支持其他表达方式上的进步,它们将会变得更加灵活和易用,从而在更多场景中发挥重要作用。该研究得到了美国国家科学基金会、斯坦福大学以人为中心的人工智能研究所、现代汽车公司、美國陸軍研究實驗室、祖克曼幹细胞领导力计划和维特比奖学金的支持。

相关链接