HyperAIHyperAI
Back to Headlines

AIM-Bench: Neue Plattform testet KI-Entscheidungen im Lagermanagement

vor 5 Tagen

南京大学孙宇祥教授及其合作者研发了首个专注于评估大模型智能体在库存管理中决策行为与偏差的基准测试平台AIM-Bench。该平台涵盖五种不同复杂度的供应链场景:报童问题、多周期补货、啤酒游戏、双层仓库网络与供应链网络,均引入需求波动、前置时间不确定、合作伙伴行为等多重不确定性因素。研究发现,大模型普遍存在类似人类的认知偏差:在报童问题中,多数模型表现出“拉向中心效应”,即在低利润时过度订购,高利润时订购不足,根源在于对需求均值的锚定与调整偏差;在多周期补货中,模型出现“Bracing行为”,因高估负面风险而过度补货;在啤酒游戏中,所有测试模型均显著放大需求波动,呈现典型的“牛鞭效应”。值得注意的是,尽管人类在风险框架下常表现出损失厌恶,但大模型在报童问题中对收益与损失框架的响应无显著差异,表明其决策偏差具有任务依赖性,不能简单套用人类行为理论。信息共享能有效缓解牛鞭效应,Qwen-2.5的牛鞭效应指数从23.07降至10.73,平均降幅达60%。研究还发现,过程指标(如与最优补货策略的距离)比结果指标(如库存成本、缺货率)更能精准区分模型决策质量——例如GPT-4.1与Qwen-2.5缺货率相近,但前者更接近最优路径,说明过程分析更具诊断价值。 该平台具备多重应用前景:可用于筛选与训练高可靠性大模型,支撑自动化补货系统;作为供应链管理培训工具,对比AI与人类决策差异,辅助管理者识别认知偏差;可集成至ERP或SCM系统,实现AI决策偏差的实时监测与自动校正;还可构建人机协同决策框架,结合AI的快速响应与人类经验,提升复杂环境下的决策鲁棒性。研究团队在调试“啤酒游戏”多智能体环境时观察到GPT-4o在信息共享下出现“行动追逐”现象——过度模仿伙伴行为,虽抑制了牛鞭效应,却丧失策略探索能力,揭示了信息共享需“适度”设计,避免AI陷入行为同质化。此外,大模型未表现出预期的“风险反转”,促使研究团队重新审视人类行为理论在AI中的适用边界。 未来,团队计划扩展AIM-Bench,纳入运输损耗、补货成本、供应商可靠性及多品类协同等现实因素;探索强化学习与大模型融合,实现偏差自纠正;开发可解释性工具,可视化AI决策逻辑;推动开源共建,构建开放评估生态。目前,相关技术已在制造业与零售业试点,初步验证其在降低库存成本、提升响应速度方面的有效性。孙宇祥强调,AI并非替代人类,而是通过理解其偏差,构建更可信、负责任的人机协同系统,最终服务于供应链韧性提升。该研究标志着AI在复杂商业决策领域从“能做”迈向“可信做”的关键一步。

Related Links