大規模モデルの在庫管理バイアスを検出する新ベンチマーク「AIM-Bench」が登場、情報共有で牛鞭効果を60%削減
南京大学の孫宇祥教授らの研究チームが、大規模モデル(LLM)が在庫管理においてどのように意思決定を行うかを評価するための世界初のベンチマーク「AIM-Bench」を開発した。このプラットフォームは、報童問題、多周期補充、ビールゲーム、二層倉庫ネットワーク、供給網全体を含む5つの異なる複雑度のサプライチェーン環境を備え、需要の不確実性や前払い時間の変動といったリアルな要因を再現している。 研究では、大規模モデルが人間と類似した意思決定バイアスを示すことが明らかになった。報童問題では、低利益率では注文量が最適値より多く、高利益率では逆に少なくなる「中心への引き寄せ効果」が観察された。これは「アンカリングと不十分な調整」の認知バイアスによるもので、需要の平均値が主要なアンカーとなる一方、過去の実際の需要は影響が弱いことが分かった。多周期補充では、リスク過剰評価に起因する「Bracing行動」が確認され、需要の変動を過剰に恐れて過剰注文を繰り返す傾向が見られた。また、ビールゲームではすべてのモデルが「牛鞭効果」を示し、需要の変動が下流から上流へと拡大する現象が再現された。 一方で、リスクフレーミング(収益強調 vs 損失強調)の違いがモデルの注文行動に顕著な影響を与えないことが判明。これは、大規模モデルの意思決定バイアスが人間の行動理論(例:前景理論)にそのまま適用できないことを示しており、タスク依存性が高いことを示している。 情報共有の効果も検証された。上下流の在庫・注文情報を共有させた結果、牛鞭効果指数(BWE)は平均で60%低下。例えば、Qwen-2.5のBWEは23.07から10.73まで改善された。また、過程指標(最適注文との距離)は結果指標(在庫コスト、欠品率)よりもモデルの意思決定品質をより正確に反映することが判明。GPT-4.1とQwen-2.5の欠品率は類似していたが、GPT-4.1の方が過程指標で優れており、より最適に近い意思決定をしていた。 AIM-Benchの応用可能性は広い。企業向けには、信頼性の高いAIを選び、自動補充システムに導入する基盤となる。また、サプライチェーン人材の訓練や、人間とAIの意思決定を比較するシミュレーションツールとしても活用可能。さらに、ERPやSCMシステムに組み込み、AIの意思決定バイアスをリアルタイムで検知・補正する仕組みの構築も視野に入る。人間の経験とAIの高速処理を融合した「人間が回路にいる」意思決定支援システムの構築も期待される。 研究チームは、今後AIM-Benchの拡張(多品目、補充コスト、サプライヤー信頼性など)、強化学習との統合、意思決定プロセスの可視化、およびオープンソース化を進め、学術・産業界との協働を強化する予定だ。孫宇祥教授は、「AIは人間を置き換えるものではなく、その限界を理解し、信頼できる人機協働システムを設計するための重要な一歩」と強調している。