多模态大语言模型与人脑在物体表征上展现惊人相似性
中国科学院的研究团队最近在《Nature Machine Intelligence》上发表了一项研究,探讨了多模态大语言模型(LLMs)如何表示自然界中的对象,如岩石、植物和动物等,并与人类的大脑工作方式进行了比较。这项研究旨在了解LLMs和人类认知之间在对象概念表示上的相似性,从而为感知和认知研究提供新的视角,并促进仿生人工智能的发展。 研究团队选择了Open AI的ChatGPT-3.5和Google DeepMind的GeminiPro Vision 1.0作为主要的多模态LLM模型。他们让这些模型完成三元组选择任务,即每次展示三个对象,让模型选出最相似的两个。通过这种方法,研究人员收集了470万个来自LLMs和多模态LLMs的三元组判断数据,形成了一个低维嵌入空间,该空间能够捕捉到1854个自然对象之间的相似性结构。 结果显示,这些六十六维的嵌入空间稳定、具有预测性,并且展示了类似于人类心理表示的语义聚类特性。值得注意的是,嵌入空间的维度是可解释的,这意味着LLMs和多模态LLMs能够发展出类似人类的概念表示。进一步分析发现,这些模型的嵌入空间与大脑某些区域的神经活动模式高度一致,包括外边缘体区、海马旁区域、后扣带回皮质和梭状脸区。 研究结论表明,经过大量数据训练后,人类似的对象表示能够在LLMs和多模态LLMs中自然涌现。这一发现不仅为理解人工和自然智能提供了重要线索,也为未来仿生AI系统的开发奠定了基础。未来的研究可以继续探索LLMs如何表示对象,以及这些表示与人类认知的具体相似之处。 业内人士认为,这项研究的意义在于它将多模态LLMs的内部工作机制与大脑的认知过程联系起来,为未来的人工智能研究提供了新的方向和工具。中国科学院作为中国顶尖的科研机构之一,长期致力于脑科学和人工智能领域的研究。此次研究再次显示出其在跨学科合作方面的强大能力。