HyperAI超神经
Back to Headlines

新AI模型“半马人”挑战人类思维模拟,专家意见分歧

14 days ago

研究人员声称他们的人工智能模型能够模拟人类思维,但其他科学家对此表示怀疑。近期,德国赫姆霍兹慕尼黑中心的Marcel Binz及其团队在《自然》杂志上发表了一篇论文,介绍他们开发的名为“Centaur”的大型语言模型(LLM)。该模型通过训练Llama(由Meta开发的LLM)来预测和模拟人类行为,涵盖了一系列可以在自然语言中描述的心理学实验。 为开发这一模型,Binz的研究团队创建了一个名为Psych-101的数据集,收录了160项已发表的心理学实验数据,涉及超过6万名参与者和1000多万次选择。他们在训练过程中向模型输入了实验场景和参与者的决策信息,最终形成了Centaur。研究发现,Centaur在多个实验中的表现比专门设计的认知模型更接近人类数据,尤其是在“双臂赌徒”实验中。此外,Centaur还能够在未见过的修改任务中产生人类-like的结果,例如增加了一个额外的虚拟老虎机的实验版本。这意味着研究人员可以利用Centaur在计算机上开发实验,然后再在真实的人类参与者身上验证,或者用它来发展新的认知理论。 然而,布里斯托尔大学的认知科学家Jeffrey Bowers对这一结果持强烈质疑态度。他和他的同事们测试了公开发布的Centaur模型,发现在某些实验中的表现与人类行为相去甚远。例如,在短期记忆实验中,Centaur能够回忆起256位数字,而人类通常只能记住大约7位;在反应时间测试中,它的响应速度达到了毫秒级别,远超人类的能力。这些结果显示了Centaur不能超越其训练数据进行有效泛化,因此不可信。 此外,Bowers认为Centaur并未揭示任何关于人类认知的机制。即使模拟器能够产生与人类相似的输出,但其内部运行机制与人脑完全不同,更像是数码钟和机械钟虽然时间一致但原理不同。Max Planck Society的恩斯特·斯特龙格曼研究所的计算认知科学家Federico Adolfi也赞同这一观点,认为Centaur可能在进一步严格的测试中表现出“极易破解”的弱点。尽管Psych-101数据集庞大,但仅160个实验在人类认知的无限领域中仍显得微不足道。 也有一些专家看到了论文的价值。伊利诺伊大学香槟分校的视觉科学家Rachel Heaton认为,虽然Centaur在理解人类认知方面没有提供实用工具,但Psych-101数据集本身是对科研的一大贡献,可供其他研究者测试自己的模型。McGill大学的计算神经科学家Blake Richards指出,未来研究中探索Centaur内部机制的努力可能会带来有价值的科学成果。 总体来看,许多计算神经科学家对Centaur这样的新工具有着谨慎的乐观。这项工作虽然提出了过分广泛的断言,但在数据集和模型的构建上投入了大量时间和精力,长远来看仍有可能在科学上取得收益。业内人士普遍认为,虽然Centaur目前还有诸多局限,但它代表了AI领域的一种探索方向,未来或许会有更多类似的尝试和突破。

Related Links