大型语言模型感知能力逼近人类大脑
4 天前
最新研究发现,大型语言模型(LLM)在理解日常视觉场景方面,可与人类大脑的感知能力相媲美。这项发表于《自然·机器智能》的研究由蒙特利尔大学心理学副教授伊恩·查雷斯特及其来自明尼苏达大学、德国奥斯纳布吕克大学和柏林自由大学的团队共同完成。 当人们观察周围环境时,大脑不仅识别物体(如“狗”或“汽车”),还能理解场景的深层含义——发生了什么、发生在何处、各元素如何关联。长期以来,科学家缺乏有效手段来量化这种复杂的视觉理解能力。此次研究突破性地利用LLM(如ChatGPT背后的模型)实现了这一目标。 研究人员将自然场景的描述输入LLM,生成一种“基于语言的指纹”,用以表征场景的语义内涵。令人惊讶的是,这些“语言指纹”与人类在MRI扫描中观看相同场景时的大脑活动模式高度吻合,例如儿童玩耍的场景或城市天际线。 “我们可以通过一句话反推一个人刚刚看到的视觉场景,也能准确预测大脑对食物、地点或含人脸场景的反应,”查雷斯特表示。这表明,LLM所编码的语义信息,与人脑处理视觉意义的方式存在惊人相似性。 更进一步,研究团队训练人工神经网络,让其从图像出发预测这些LLM生成的“指纹”。结果发现,这些模型在匹配真实脑活动方面,甚至优于当前最先进的视觉AI系统,且训练数据远少于后者。 该研究由奥斯纳布吕克大学机器学习教授蒂姆·基茨曼及其团队提供技术支持,第一作者为柏林自由大学教授阿德里安·多里格。 查雷斯特指出,这项成果不仅有助于破译思维、提升脑机接口性能,还能推动更接近人类视觉理解方式的智能AI系统发展,未来或可应用于自动驾驶决策优化,甚至为严重视觉障碍者开发视觉假体。 “这标志着我们理解人脑如何从视觉世界中获取意义迈出关键一步。”