12 天前

VideoAgentTrek：从无标签视频中进行计算机使用预训练

Dunjie Lu Yiheng Xu Junli Wang Haoyuan Wu Xinyuan Wang Zekun Wang Junlin Yang Hongjin Su Jixuan Chen Junda Chen

摘要

训练计算机使用智能体需要大量图形用户界面（GUI）交互数据，但大规模手动标注操作轨迹的成本极高，难以承受。我们提出 VideoAgentTrek，一个可扩展的自动化数据挖掘流程，能够从网络规模的公开屏幕录制视频中自动提取训练数据，从而完全避免了人工标注的需要。该方法解决了一个关键挑战：原始视频中包含隐式操作示范，但缺乏显式的操作标签。为应对这一问题，我们开发了 Video2Action，一种逆动力学模块（Inverse Dynamics Module, IDM），包含两个核心组件：（1）视频定位模型，能够精准检测并定位GUI操作，具备精确的时间边界和上下文理解能力；（2）操作内容识别器，可高保真地提取结构化参数，如点击坐标和输入文本内容。将该方法应用于3.9万条YouTube教学视频，我们的流程共自动生成了152万次交互步骤。我们通过持续预训练结合监督微调的方式利用这些数据。在 OSWorld-Verified 基准测试中，任务成功率从仅使用监督微调的基线模型的9.3%提升至15.8%，相对提升达70%；在 AgentNetBench 基准上，步骤准确率从64.1%提升至69.3%。实验结果表明，被动获取的互联网视频可被有效转化为高质量的计算机使用智能体监督信号，为昂贵的人工标注提供了一种可扩展的替代方案。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

VideoAgentTrek：从无标签视频中进行计算机使用预训练

Dunjie Lu Yiheng Xu Junli Wang Haoyuan Wu Xinyuan Wang Zekun Wang Junlin Yang Hongjin Su Jixuan Chen Junda Chen5 more

摘要

用 AI 构建 AI

Hyper Newsletters

Dunjie Lu Yiheng Xu Junli Wang Haoyuan Wu Xinyuan Wang Zekun Wang Junlin Yang Hongjin Su Jixuan Chen Junda Chen