2 天前

NiceWebRL:一个用于强化学习环境的人类被试实验的Python库

Wilka Carvalho, Vikram Goddla, Ishaan Sinha, Hoon Shin, Kunal Jha
NiceWebRL:一个用于强化学习环境的人类被试实验的Python库
摘要

我们提出了NiceWebRL,这是一个研究工具,使研究人员能够利用机器强化学习(RL)环境开展在线人类被试实验。NiceWebRL是一个基于Python的库,可将任意基于Jax的环境转换为在线交互界面,支持单智能体与多智能体环境。因此,NiceWebRL使人工智能研究人员能够将其算法与人类表现进行对比,认知科学家能够将机器学习算法作为人类认知的理论模型进行验证,多智能体研究者则可开发适用于人机协作的算法。我们通过三个案例研究展示了NiceWebRL的潜力,这些研究分别推动了类人AI、人兼容AI与人辅助AI的发展。在第一个案例研究(类人AI)中,NiceWebRL支持开发一种新型的认知强化学习模型,并在网格世界和Craftax(一个2D版Minecraft环境)中,将该模型与人类被试进行对比测试。在第二个案例研究(人兼容AI)中,NiceWebRL助力开发了一种新型多智能体强化学习算法,该算法可在“Overcooked”环境中泛化至与人类合作的场景。在第三个案例研究(人辅助AI)中,我们展示了如何利用NiceWebRL研究大型语言模型(LLM)在XLand-Minigrid环境(一个包含数百万层级任务的复杂环境)中协助人类完成复杂任务的机制。该工具库已开源,可通过以下链接获取:https://url。

NiceWebRL:一个用于强化学习环境的人类被试实验的Python库 | 最新论文 | HyperAI超神经