HyperAI超神经

Web-Shepherd:推进强化网络代理的PRM技术

Chae, Hyungjoo ; Kim, Sunghwan ; Cho, Junhee ; Kim, Seungone ; Moon, Seungjun ; Hwangbo, Gyeom ; Lim, Dongha ; Kim, Minjin ; Hwang, Yeonjun ; Gwak, Minju ; Choi, Dongwook ; Kang, Minseok ; Im, Gwanhoon ; Cho, ByeongUng ; Kim, Hyojun ; Han, Jun Hee ; Kwon, Taeyoon ; Kim, Minju ; Kwak, Beong-woo ; Kang, Dongjin ; Yeo, Jinyoung
发布日期: 5/22/2025
Web-Shepherd:推进强化网络代理的PRM技术
摘要

网络导航是一个独特的领域,可以自动化许多重复性的现实生活任务,但其挑战在于需要进行超出典型多模态大语言模型(MLLM)任务范围的长期序列决策。然而,直到现在,专门用于网络导航的奖励模型在训练和测试过程中都尚未出现。尽管速度和成本效益至关重要,但先前的研究工作一直使用MLLM作为奖励模型,这对实际部署提出了重大限制。为了解决这一问题,本文提出了一种称为Web-Shepherd的过程奖励模型(PRM),该模型能够在步骤级别评估网络导航轨迹。为此,我们首先构建了WebPRM集合,这是一个大规模数据集,包含40,000个步骤级别的偏好对和注释检查表,涵盖了多种领域和难度级别。接下来,我们还引入了WebRewardBench,这是第一个用于评估PRM的元评价基准。在实验中,我们观察到Web-Shepherd在WebRewardBench上的准确性比使用GPT-4o高出约30分。此外,在使用GPT-4o-mini作为策略并在WebArena-lite上进行测试时,以Web-Shepherd作为验证器,我们实现了比使用GPT-4o-mini作为验证器高10.9分的性能提升,并且成本降低了10%。我们的模型、数据集和代码已在LINK公开发布。