HyperAI超神经

麻省理工学院计算机科学与人工智能实验室（CSAIL）和斯坦福大学的研究团队最新开发了一种名为“SketchAgent”的绘画系统，旨在让AI模型更像人类一样绘制草图。通过使用多模态语言模型（能够同时处理文本和图像数据的AI系统），SketchAgent可以在几秒钟内将自然语言指令转化为简笔画或涂鸦。这个新工具不仅能独立完成绘制任务，还可以与人类协作或多模态语言模型结合，分步骤绘制复杂的图案。 SketchAgent的设计灵感来源于人类日常生活中的绘图习惯，例如在讨论中用简笔画表达想法或记录思考过程。研究团队希望通过这一工具，使多模态语言模型在视觉表达方面更具实用性，帮助教师和研究人员绘制复杂概念示意图，或为用户提供快速绘图指导。系统的关键创新在于它采用了一个“绘图语言”，即用编号序列将每一个绘制动作对应到网格上的一个特定位置，每个动作都有具体的标签，如绘制房门的第七个动作被标注为“前门”。这种设定让SketchAgent能够在没有现成人类绘制样本数据库的情况下，学习如何从零开始绘制新的概念。研究团队进行了详细的评估，比较了SketchAgent与传统文本到图像生成模型（如DALL-E 3）的绘制能力。结果显示，虽然DALL-E 3可以生成有趣的图像，但其缺乏人类绘图过程中即兴创造的特点，而SketchAgent则能模拟绘制过程，通过一系列步骤自然地构建出完整的草图。研究人员还测试了SketchAgent在协作模式下的表现，即人类与模型共同完成一幅画。测试表明，SketchAgent的贡献对最终作品至关重要，比如在绘制帆船时，AI部分所勾勒的桅杆对整体形象的识别起到了关键作用。尽管SketchAgent展示了巨大的潜力，它仍然存在一些限制。目前，该工具只能生成简单概念的简笔画，如房子、机器人、蝴蝶等，但在绘制Logo、句子、复杂生物或特定的人物形象时表现出困难。此外，在协作绘制过程中，模型有时会误解用户的意图，例如，它曾画出一只两个头的小兔子，这可能是因为模型将其任务分解为多个小步骤，无法准确判断用户正在贡献的部分。不过，研究团队计划未来通过合成数据训练进一步优化模型，使其更加精准和高效。研究人员表示，SketchAgent的出现不仅为AI与人类的合作开辟了新的方式，还有望显著丰富用户与AI的互动体验，使其更加直观和人性化。CSAIL博士后研究员亚历山大·奥绍、斯坦福大学研究员克里斯汀·郑以及助理教授朱迪思·埃伦·范等人也将于本月在2025年计算机视觉与模式识别会议（CVPR）上展示他们的研究成果。业内人士认为，SketchAgent的推出是一个重要的里程碑，表明AI在多模态交互领域正在取得实质性进展。麻省理工学院教授安东尼奥·托拉尔巴指出，随着AI模型在理解和支持其他表达方式上的进步，它们将会变得更加灵活和易用，从而在更多场景中发挥重要作用。该研究得到了美国国家科学基金会、斯坦福大学以人为中心的人工智能研究所、现代汽车公司、美國陸軍研究實驗室、祖克曼幹细胞领导力计划和维特比奖学金的支持。

相关链接

相关链接

相关链接

验证周期缩短 40 倍，密歇根大学等提出电池寿命预测新方法，「发现学习」节省 98% 评估时间

验证周期缩短 40 倍，密歇根大学等提出电池寿命预测新方法，「发现学习」节省 98% 评估时间

Command Palette

MIT CSAIL与斯坦福大学联手打造“SketchAgent”：能像人类一样素描的AI系统

相关链接

Command Palette

MIT CSAIL与斯坦福大学联手打造“SketchAgent”：能像人类一样素描的AI系统

相关链接

Command Palette

MIT CSAIL与斯坦福大学联手打造“SketchAgent”：能像人类一样素描的AI系统

相关链接

验证周期缩短 40 倍，密歇根大学等提出电池寿命预测新方法，「发现学习」节省 98% 评估时间

验证周期缩短 40 倍，密歇根大学等提出电池寿命预测新方法，「发现学习」节省 98% 评估时间