HyperAI초신경
18일 전

체화된 웹 에이전트: 통합된 에이전트 지능을 위한 물리-디지털 영역의 연결

Yining Hong, Rui Sun, Bingxuan Li, Xingcheng Yao, Maxine Wu, Alexander Chien, Da Yin, Ying Nian Wu, Zhecan James Wang, Kai-Wei Chang
체화된 웹 에이전트: 통합된 에이전트 지능을 위한 물리-디지털 영역의 연결
초록

오늘날의 AI 에이전트는 대부분 고립되어 있습니다. 그들은 온라인에서 얻은 방대한 디지털 정보와 지식을 검색하고 추론하거나, 물리적 세계를 체화된 인식, 계획 및 행동을 통해 상호작용하지만, 두 가지를 동시에 수행하는 경우는 드뭅니다. 이러한 분리는 온라인 레시피를 사용하여 요리를 하거나, 동적인 맵 데이터로 길 찾기를 하거나, 웹 지식을 사용하여 실제 세계의 랜드마크를 해석하는 등의 통합된 물리적과 디지털 지능이 필요한 작업을 해결하는 능력을 제한합니다. 우리는 이 두 영역을 유연하게 연결하는 새로운 패러다임인 체화된 웹 에이전트(Embodied Web Agents)를 소개합니다. 이 개념을 구현하기 위해 먼저 체화된 웹 에이전트 작업 환경을 개발하였습니다. 이는 현실적인 3D 실내 및 실외 환경과 기능적인 웹 인터페이스를 밀접하게 통합하는 일관된 시뮬레이션 플랫폼입니다. 이 플랫폼을 기반으로 우리는 요리, 탐색, 쇼핑, 관광 및 지리 위치 결정 등 다양한 작업을 포함하는 체화된 웹 에이전트 벤치마크를 구성하고 공개하였습니다. 이들 작업은 모두 물리적 영역과 디지털 영역 간의 조정된 추론이 필요하며, 이를 통해 교차 영역 지능의 체계적인 평가가 가능합니다. 실험 결과는 최신 AI 시스템과 인간 능력 사이에 큰 성능 차이가 있음을 보여주며, 체화된 인지와 대규모 웹 지식 접근의 교차점에서 도전 과제와 기회를 설정하였습니다. 모든 데이터셋, 코드 및 웹사이트는 프로젝트 페이지 https://embodied-web-agent.github.io/에서 공개적으로 이용할 수 있습니다.