Command Palette

Search for a command to run...

2일 전

Surfer 2: 다음 세대의 다중 플랫폼 컴퓨터 사용 에이전트

Surfer 2: 다음 세대의 다중 플랫폼 컴퓨터 사용 에이전트

초록

웹, 데스크톱, 모바일 환경 간에 일반화 가능한 에이전트를 구축하는 것은 여전히 열린 과제로, 기존 시스템은 환경에 따라 달라지는 인터페이스에 의존함으로써 다중 플랫폼 배포에 한계를 가진다. 본 연구에서는 시각적 관측(visual observations)에만 기반하여 작동하는 통합 아키텍처인 Surfer 2를 제안한다. Surfer 2는 모든 세 가지 환경에서 최고 수준의 성능을 달성하며, 과거의 모든 시스템을 뛰어넘는다. Surfer 2는 계층적 컨텍스트 관리, 계획과 실행의 분리, 그리고 적응형 복구를 통한 자가 검증(self-verification)을 통합함으로써 긴 작업 시점(long task horizons)에서도 신뢰성 있는 작동을 가능하게 한다. 본 시스템은 WebVoyager에서 97.1%, WebArena에서 69.6%, OSWorld에서 60.1%, AndroidWorld에서 87.1%의 정확도를 기록하며, 태스크에 특화된 미세 조정(fine-tuning) 없이도 기존 모든 시스템을 초과한다. 여러 시도를 통해 Surfer 2는 모든 벤치마크에서 인간의 성능을 초월한다. 이러한 결과는 체계적인 조율이 기반 모델의 능력을 극대화하고, 시각적 상호작용만을 통해 일반 목적의 컴퓨터 제어를 가능하게 함을 보여주며, 파레토 최적(Pareto-optimal)의 비용 효율성을 달성하기 위한 차세대 시각-언어 모델(Vision-Language Model)의 필요성을 시사한다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp