Command Palette
Search for a command to run...
Jingran Zhang Ning Li Justin Cui

要約
OpenAIのChatGPT Atlasは、ウェブページの分析、ユーザーの意図の処理、およびブラウザ内でのカーソル操作やキーボード入力の直接実行を可能にする新たなウェブ連携機能を搭載している。これまでに情報取得タスクにおけるその能力は実証されてきたが、動的でインタラクティブな環境における性能についてはまだ十分に検証されていない。本研究では、GoogleのT-Rex Runner、数独(Sudoku)、Flappy Bird、Stein.worldといったブラウザゲームをテストシナリオとして用い、Atlasのウェブ連携能力について初期評価を行う。ゲーム内スコアを定量的指標として用い、異なるタスクタイプにおける性能を評価した。その結果、Atlasは数独のような論理的推論タスクにおいて優れた性能を発揮し、人間のベースラインと比較して格段に速くパズルを解くことが可能である一方で、正確なタイミングと運動制御が求められるリアルタイムゲームでは著しく苦戦し、初期の障害を越えることすら困難な場合が多かった。これらの結果から、Atlasは分析処理能力に優れているものの、リアルタイム対応が求められる動的ウェブ環境では依然として顕著な制約が存在することが示唆される。本研究のウェブサイトは https://atlas-game-eval.github.io にて公開されている。