2日前

エージェントはウェブを制覇できるか？ ChatGPT Atlasエージェントのウェブゲームにおけるフロンティアを探る

Jingran Zhang Ning Li Justin Cui

要約

OpenAIのChatGPT Atlasは、ウェブページの分析、ユーザーの意図の処理、およびブラウザ内でのカーソル操作やキーボード入力の直接実行を可能にする新たなウェブ連携機能を搭載している。これまでに情報取得タスクにおけるその能力は実証されてきたが、動的でインタラクティブな環境における性能についてはまだ十分に検証されていない。本研究では、GoogleのT-Rex Runner、数独（Sudoku）、Flappy Bird、Stein.worldといったブラウザゲームをテストシナリオとして用い、Atlasのウェブ連携能力について初期評価を行う。ゲーム内スコアを定量的指標として用い、異なるタスクタイプにおける性能を評価した。その結果、Atlasは数独のような論理的推論タスクにおいて優れた性能を発揮し、人間のベースラインと比較して格段に速くパズルを解くことが可能である一方で、正確なタイミングと運動制御が求められるリアルタイムゲームでは著しく苦戦し、初期の障害を越えることすら困難な場合が多かった。これらの結果から、Atlasは分析処理能力に優れているものの、リアルタイム対応が求められる動的ウェブ環境では依然として顕著な制約が存在することが示唆される。本研究のウェブサイトは https://atlas-game-eval.github.io にて公開されている。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング

すぐに使える GPU

最適価格

今すぐ始める

Hyper Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Command Palette

エージェントはウェブを制覇できるか？ ChatGPT Atlasエージェントのウェブゲームにおけるフロンティアを探る

Jingran Zhang Ning Li Justin Cui

要約

AI で AI を構築

Hyper Newsletters