
우리는 대화형 웹 네비게이션 문제를 제안합니다. 이 문제에서 디지털 에이전트는 웹 브라우저를 제어하고 사용자의 지시에 따라 다중 턴 대화 방식으로 실제 세계의 작업을 수행합니다. 이 문제를 지원하기 위해, 우리는 2,300개의 전문가 시연을 포함하는 10만 건의 상호작용으로 구성된 대규모 벤치마크인 WEBLINX를 소개합니다. 우리의 벤치마크는 150여 개 이상의 실제 웹사이트에서 다양한 패턴을 포괄하며, 다양한 시나리오에서 에이전트를 훈련시키고 평가하는 데 사용될 수 있습니다.웹 페이지에 존재하는 정보의 규모 때문에, 대형 언어 모델(LLMs)은 실시간으로 전체 웹 페이지를 처리할 수 없습니다. 이 병목 현상을 해결하기 위해, 우리는 검색 기반 모델을 설계하여 관련 요소를 순위 매겨 효율적으로 HTML 페이지를 필터링합니다. 선택된 요소와 스크린샷, 행동 기록을 사용하여 다양한 모델들의 웹 네비게이션 시 인간 행동을 재현하는 능력을 평가하였습니다. 실험은 텍스트만 처리하는 작은 모델부터 소유권이 있는 다중 모달 LLMs까지 다양하게 이루어졌습니다.실험 결과, 더 작은 미세 조정(finetuned) 디코더들이 최상의 제로샷(zero-shot) LLMs(예: GPT-4V)보다 우수한 성능을 보였으며, 스크린샷으로 사전 학습(pretrained)된 더 큰 미세 조정 다중 모달 모델들도 마찬가지였습니다. 그러나 모든 미세 조정 모델들은 새로운 웹사이트로 일반화하는 데 어려움을 겪었습니다. 우리의 연구 결과는 새로운 환경으로 일반화할 수 있는 큰 다중 모달 모델의 필요성을 강조합니다. 우리의 코드, 데이터 및 모델은 다음과 같이 연구 목적으로 제공됩니다: https://mcgill-nlp.github.io/weblinx