Causal Bellman Equation Accelerates Optimal Agent Training
近日,美国哥伦比亚大学的博士生李明轩及其团队提出了一种新的方法——因果贝尔曼方程。这一方程能够利用可能包含混杂变量的观测数据,计算出最优价值函数的理论上界。研究团队通过实验证明,使用这一上限设计奖励函数,可以在某些特定的在线学习算法中更快地训练出最优智能体。 李明轩的研究目标是解决传统方法在设计奖励函数时面临的难题。这些传统方法,如吴恩达于1999年提出的基于潜能的奖励整形(PBRS)算法,常常需要针对每个新任务单独设计和调整奖励信号,导致耗费大量时间和人力资源。这种逐个任务的设计方式在日益增长的智能体需求面前显得不可持续。因此,李明轩和他的团队探讨了是否可以从现有的数据集中自动学习出合理的额外奖励信号,以加速智能体的训练过程。 直观来看,这一方法是可行的。例如,可以使用蒙特卡洛方法估算价值函数,每两个状态之间的价值差即可作为额外的奖励信号。然而,当数据集不是由高性能智能体生成,或包含未观察到的混杂偏差时,直接利用蒙特卡洛方法估计的价值函数可能会带有偏差,导致与最优价值函数相差甚远。对此,研究团队利用因果推断的工具,从可能包含混杂偏差的数据集中自动学习合理的奖励函数,并从理论上证明了这类奖励函数可以显著提高特定智能体训练的效率。大量的实验结果进一步验证了这一发现的有效性。 在研究初期,李明轩对于这一算法改进并不抱太大希望,因为前人的论文已经论证过,使用PBRS增加额外奖励信号在很多情况下不会对样本复杂度产生显著影响。他回忆说,他的导师对此也感到遗憾,因为实验中观察到的大幅性能提升无法用现有的理论解释。然而,在即将放弃之际,李明轩重新审视了一些近年来关于在线探索算法复杂度分析的论文,并仔细阅读了附录中的证明细节。正是在这个过程中,他发现了几个不同论文中的中间结论可以联系在一起,最终证明了他所希望的样本复杂度结论。“那一刻的直觉后来被证实是正确的,而且结论非常整洁漂亮,让我感到不可思议的巧合和乐趣。有时,在写代码的间隙,我体验到了类似找到最后一块拼图的满足感。”李明轩表示。 该研究成果《从混杂离线数据中自动实现奖励整形》(Automatic Reward Shaping from Confounded Offline Data)已被2025年国际机器学习大会(ICML, International Conference on Machine Learning)收录。研究团队目前正在进一步探索如何将这一理论应用于更大规模的问题中,例如电子游戏(如Atari游戏)和需要处理连续状态及动作空间的机器人控制问题。 这一研究不仅为智能体训练提供了新的方法,还有望在复杂任务环境中,帮助自动化设计奖励函数,从而减少人为干预和时间成本,提高训练效率。