18岁辍学创业者打造开源史上最大工厂视觉数据集,助力机器人向人类学技能
18岁辍学创业者Eddy Xu创办的AI公司Build AI近日开源了史上最大规模的第一人称视角工厂操作数据集——Egocentric-10K。该数据集包含10,000小时真实工厂环境中的视频,覆盖2,153名工人的日常作业,总容量达16.4TB,包含超过10.8亿帧画面,已通过Hugging Face平台以Apache 2.0许可证开放,支持商业使用与修改。 数据全部来自工人佩戴头戴摄像设备在真实车间中记录的操作过程,涵盖零件加工、组装、分拣、包装和质检等完整流程。统计显示,96.42%的工作涉及至少一只手操作,76.34%需双手协同,91.66%包含主动物体操控,显著高于此前主流数据集如Ego4D和EPIC-KITCHENS。视频以全高清MP4格式存储,按工厂与工人分类,附带JSON元数据,支持WebDataset格式的流式加载与按需下载。 Eddy Xu的成长轨迹堪称传奇。初中时便带领无资金、无教练的机器人团队在VEX世界锦标赛中闯入前32名。高中阶段自学编程,通过AP计算机考试,曾开发工程软件并创办教育科技公司,3个月内完成销售。2025年初,他在哥伦比亚大学期间开发出基于Meta智能眼镜的AI国际象棋系统,通过视觉识别棋盘并实时推荐走法,引发关注。 今年初,他从哥伦比亚大学退学,创立Build AI,拒绝超2500万美元股权邀约,吸引来自学术界、顶级实验室和创业公司的核心成员加入。公司使命为“构建物理超级智能,为所有人带来富足”。9月获500万美元融资,由Abstract Ventures、Pear VC和HF0领投。 Build AI专注于“扩展经济上有用的自我中心人类数据”,即通过部署记录设备在真实工业场景中持续采集第一人称视觉数据。与传统第三人称固定视角不同,第一人称视觉能精准捕捉手部动作、视线轨迹与人机交互细节。Meta的EgoMimic项目和Figure AI的“Project Go-Big”均证明,此类数据可显著提升机器人任务学习能力,实现“零样本人类到机器人迁移”。 目前,Egocentric-10K的完整版和3万帧评估子集已公开,研究者可直接通过Python的datasets库调用。公司表示,数据集规模与质量仍在持续增长。尽管面临“实施差距”等技术挑战,Build AI仍坚持这一高风险、高回报的押注,目标是推动机器人技术实现质的飞跃,改善全球数十亿人的生活。
