2일 전

에이전트는 웹을 정복할 수 있는가? ChatGPT Atlas 에이전트의 웹 게임에서의 경계를 탐색한다

Jingran Zhang Ning Li Justin Cui

초록

OpenAI의 ChatGPT Atlas는 웹 상호작용을 위한 새로운 기능을 도입하여, 모델이 웹페이지를 분석하고 사용자 의도를 처리하며 브라우저 내에서 커서 및 키보드 입력을 직접 실행할 수 있도록 한다. 기존에 정보 검색 작업에서의 능력은 입증되었으나, 동적이고 상호작용적인 환경에서의 성능은 여전히 탐색이 부족한 영역이다. 본 연구에서는 브라우저 기반 게임을 테스트 시나리오로 활용하여 Atlas의 웹 상호작용 능력을 조기 평가한다. 테스트 대상 게임으로는 구글의 T-Rex 러너, 수수께끼(수도쿠), 플래피 버드, Stein.world를 포함한다. 각 작업 유형에 대한 성능을 정량적으로 평가하기 위해 게임 내 성과 점수를 사용한다. 그 결과, Atlas는 수수께끼와 같은 논리적 추론 작업에서 뛰어난 성능을 보였으며, 인간 기준 대비 퍼즐을 훨씬 빠르게 완성하는 것으로 나타났다. 반면, 정밀한 타이밍과 운동 조절이 필요한 실시간 게임에서는 상당한 어려움을 겪었으며, 초기 장애물 이후 진행이 거의 불가능한 경우가 많았다. 이러한 결과는 Atlas가 분석적 처리 능력은 충분히 보유하고 있음에도 불구하고, 실시간 상호작용이 필요한 동적 웹 환경에서는 여전히 주목할 만한 한계가 있음을 시사한다. 본 프로젝트의 웹사이트는 https://atlas-game-eval.github.io 에서 확인할 수 있다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩

즉시 사용 가능한 GPU

최적 가격

시작하기

Hyper Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

Command Palette

에이전트는 웹을 정복할 수 있는가? ChatGPT Atlas 에이전트의 웹 게임에서의 경계를 탐색한다

Jingran Zhang Ning Li Justin Cui

초록

AI로 AI 구축

Hyper Newsletters