2日前

NiceWebRL:強化学習環境を用いた被験者実験用Pythonライブラリ

Wilka Carvalho, Vikram Goddla, Ishaan Sinha, Hoon Shin, Kunal Jha
NiceWebRL:強化学習環境を用いた被験者実験用Pythonライブラリ
要約

本稿では、オンラインの人間被験者実験に機械強化学習(RL)環境を活用できる研究ツール「NiceWebRL」を紹介する。NiceWebRLはPythonライブラリであり、JAXベースの任意のRL環境をオンラインインターフェースに変換可能で、単一エージェントおよびマルチエージェント環境の両方をサポートしている。この仕組みにより、AI研究者は自らのアルゴリズムと人間のパフォーマンスを比較可能となり、認知科学者たちは機械学習アルゴリズムを人間の認知メカニズムの理論として検証できるようになり、マルチエージェント研究者は人間とAIの協働を目的としたアルゴリズムの開発が可能となる。本研究では、人間らしいAI(Human-like AI)、人間と調和するAI(Human-compatible AI)、人間を支援するAI(Human-assistive AI)の開発を促進する可能性を示す3つの事例研究を提示する。第一の事例(人間らしいAI)では、NiceWebRLを用いて認知の新しい強化学習モデルの開発を実現。このモデルは、グリッドワールドおよび2D Minecraft環境「Craftax」において、人間被験者との比較実験を通じて検証された。第二の事例(人間と調和するAI)では、Overcooked環境における人間パートナーに一般化可能な新しいマルチエージェント強化学習アルゴリズムの開発が可能になった。第三の事例(人間を支援するAI)では、数百万もの階層的なタスクを含む環境「XLand-Minigrid」において、大規模言語モデル(LLM)が複雑なタスクにおける人間の支援に果たす役割を研究する方法を示した。本ライブラリは、以下のURLから利用可能である。