Command Palette
Search for a command to run...
Crystal Qian Kehang Zhu John Horton Benjamin S. Manning Vivian Tsai et al

摘要
传统上由人类完成的协调任务,正越来越多地被交由自主智能体来执行。随着这一趋势的发展,评估不仅包括智能体在动态多智能体环境中的表现,更关键的是其协商过程本身,变得日益重要。此外,不同类型的智能体展现出各自的优势:传统的统计型智能体(如贝叶斯模型)在条件明确的情况下表现优异,而大型语言模型(LLMs)则具备跨情境的泛化能力。在本研究中,我们对人类(N = 216)、大型语言模型(GPT-4o、Gemini 1.5 Pro)以及贝叶斯智能体在动态协商场景中进行了直接对比,所有群体在完全相同的条件下开展实验,从而能够同时捕捉协商结果与行为动态。研究发现,贝叶斯智能体通过激进的优化策略实现了最高的总收益,但代价是频繁出现交易被拒绝的情况;而人类与大型语言模型虽在总体收益上表现相近,却采用了截然不同的行为策略:LLMs 倾向于采取保守、让步型的交易策略,交易拒绝率较低;而人类则表现出更具策略性、更愿意承担风险且更注重公平性的行为模式。因此,我们发现,尽管“性能对等”常被视为智能体评估的基准,但它可能掩盖了在行为机制与目标对齐方面的根本差异——而这些差异对于智能体在现实世界协调任务中的实际部署至关重要。