南京大学团队发布AIM-Bench:首个大模型库存决策行为与偏差评估基准
남경대학 손우상 교수와 공동연구팀이 대규모 모델이 재고 관리에서 보이는 의사결정 행동과 편향을 평가할 수 있는 최초의 기준 플랫폼 AIM-Bench를 개발했다. 이 플랫폼은 보자기 문제, 다주기 보충, 맥주 게임, 이중 창고 네트워크, 공급망 네트워크 등 5가지 복잡도가 다른 공급망 환경을 포함하며, 각각 수요 변동, 납기 불확실성 등 다양한 불확실성 요소를 내재하고 있다. 연구 결과, 대규모 모델은 인간과 유사한 결정 편향을 보였다. 보자기 문제에서는 저마진 상황에선 주문량이 최적보다 과도하게 높고, 고마진에서는 반대로 낮아지는 ‘중심으로 끌리는 효과’가 나타났으며, 이는 수요 평균을 중심으로 한 ‘고정점 및 부족 조정 편향’ 때문이었다. 전달 시간과 수요 불확실성 속에서 다주기 보충에서는 ‘과도한 보충 행동(Bracing)’이 발생했고, 맥주 게임에서는 모든 모델이 ‘소비자 수요가 상류로 갈수록 확대되는 물결 효과(물결 효과)’를 보였다. 흥미롭게도, 의사결정 프레임(수익 강조 vs 손실 강조) 변화가 모델의 주문 행동에 큰 영향을 주지 않았다. 이는 기존 인간의 손실 회피와 같은 행동 이론을 단순히 AI에 적용할 수 없다는 점을 시사하며, AI의 편향은 작업 맥락에 따라 달라진다는 것을 보여준다. 정보 공유는 물결 효과를 평균 60% 감소시키는 효과를 보였다. 예를 들어 Qwen-2.5의 물결 효과 지수는 23.07에서 10.73으로 떨어졌다. 또, 단순 결과 지표보다 ‘최적 주문과의 거리’ 같은 과정 지표가 모델의 결정 품질을 더 정밀하게 반영했다. GPT-4.1과 Qwen-2.5는 결손률이 비슷했지만, GPT-4.1이 더 최적에 가까운 주문을 했다. 이 연구는 AI 기반 재고 시스템 설계, 공급망 교육 시뮬레이션, AI 편향 진단 및 보정 도구, 인간-기계 협업 의사결정 시스템 등 다양한 응용 가능성을 제시한다. 특히 정보 공유가 과도할 경우 모델이 파트너 행동을 지나치게 모방해 유연성 저하(행동 추격)가 발생할 수 있다는 점도 발견했다. 향후 연구팀은 AIM-Bench를 확장해 운송 손실, 보충 비용, 공급자 신뢰도 등 현실 요소를 추가하고, 강화학습과 결합한 편향 교정 기법을 개발할 계획이다. 또한 모델의 의사결정 과정을 시각화할 수 있는 해석성 도구 개발과 오픈소스 공개를 통해 학계와 산업계의 협력을 유도할 예정이다. 현재 연구팀은 제조업과 유통업에서 AI 기반 재고 최적화 시스템을 시범 적용 중이며, 초기 결과로 재고 비용 감소와 반응 속도 향상이 확인됐다. 손우상 교수는 “AI는 인간을 대체하려는 것이 아니라, 그 편향을 이해하고 신뢰할 수 있는 인간-기계 협업 시스템을 만드는 데 목적이 있다”며, 학문적 성과를 실제 공급망의 회복력 제고로 연결하려는 의지를 밝혔다.