HyperAIHyperAI
Back to Headlines

南京大学团队推出AIM-Bench:首个评估大模型库存决策偏差的基准平台

منذ 5 أيام

南京大学孙宇祥教授及其团队近日推出首个专注于评估大模型智能体在库存管理中决策行为与偏差的基准测试平台——AIM-Bench。该平台涵盖五类不同复杂度的供应链场景:报童问题、多周期补货、啤酒游戏、双层仓库网络及供应链网络,全面覆盖随机需求、前置时间波动、合作伙伴行为不确定性等现实挑战。 研究发现,大模型在决策中普遍存在与人类相似的认知偏差。在报童问题中,多数模型表现出“拉向中心效应”——在低利润率时过度订购,高利润率时则订购不足,其根源可归结为“锚定与调整”启发法,其中需求均值成为主要决策锚点,而过往实际需求的影响较弱。在多周期补货任务中,模型出现“Bracing行为”,即因高估负面事件风险而过度补货。在“啤酒游戏”中,所有测试模型均显著放大需求波动,呈现典型的“牛鞭效应”。 值得注意的是,尽管大模型在医疗、金融等领域表现出风险偏好反转(如损失厌恶),但在报童问题中,改变决策框架(强调收益或损失)并未显著影响其订购行为,表明AI的决策偏差具有强烈任务依赖性,不能简单套用人类行为理论。 研究还发现,信息共享能有效缓解牛鞭效应。当模型获取上下游库存与订单信息后,牛鞭效应指数平均下降约60%。例如,Qwen-2.5的BWE从23.07降至10.73。然而,过度共享也可能带来副作用——GPT-4o在信息共享模式下出现“行动追逐”现象,即盲目模仿合作方行为,导致策略僵化,虽抑制了波动,却丧失了探索更优解的能力,提示“适度共享”机制亟待设计。 在评估方法上,研究证明过程指标比结果指标更具区分度。通过动态规划计算模型决策与最优解之间的距离,可更精准反映其决策质量。例如,GPT-4.1与Qwen-2.5缺货率相近,但前者在过程指标上表现更优,说明其决策更接近最优路径。 该平台具有多重应用前景:可用于筛选和训练高可靠性大模型,支持自动化补货系统;作为供应链培训工具,帮助管理者识别自身认知偏差;集成至ERP或SCM系统,实现AI决策偏差的实时监测与自动校正;并推动人机协同决策,融合AI的快速响应与人类经验判断。 未来,研究团队计划扩展AIM-Bench,引入运输损失、补货成本、供应商可靠性及多品类协同等现实因素;探索强化学习与大模型结合,提升模型自我修正能力;开发可解释性工具,可视化AI决策逻辑;并推动平台开源,促进学术与产业共建。 目前,相关技术已在制造业与零售业开展试点,初步验证了其在降低库存成本、提升响应效率方面的潜力。孙宇祥强调,AI并非取代人类,而是通过理解其局限与偏差,构建更可信、更具韧性的协同决策系统。研究旨在探索“负责任AI”的实现路径,推动学术成果向真实世界供应链优化转化。

Related Links