Command Palette
Search for a command to run...

摘要
训练计算机使用智能体需要大量图形用户界面(GUI)交互数据,但大规模手动标注操作轨迹的成本极高,难以承受。我们提出 VideoAgentTrek,一个可扩展的自动化数据挖掘流程,能够从网络规模的公开屏幕录制视频中自动提取训练数据,从而完全避免了人工标注的需要。该方法解决了一个关键挑战:原始视频中包含隐式操作示范,但缺乏显式的操作标签。为应对这一问题,我们开发了 Video2Action,一种逆动力学模块(Inverse Dynamics Module, IDM),包含两个核心组件:(1)视频定位模型,能够精准检测并定位GUI操作,具备精确的时间边界和上下文理解能力;(2)操作内容识别器,可高保真地提取结构化参数,如点击坐标和输入文本内容。将该方法应用于3.9万条YouTube教学视频,我们的流程共自动生成了152万次交互步骤。我们通过持续预训练结合监督微调的方式利用这些数据。在 OSWorld-Verified 基准测试中,任务成功率从仅使用监督微调的基线模型的9.3%提升至15.8%,相对提升达70%;在 AgentNetBench 基准上,步骤准确率从64.1%提升至69.3%。实验结果表明,被动获取的互联网视频可被有效转化为高质量的计算机使用智能体监督信号,为昂贵的人工标注提供了一种可扩展的替代方案。