مراهق يبلغ 18 عامًا يغادر الدراسة لتأسيس شركة تطلق أكبر مجموعة بيانات بصرية للروبوتات في التاريخ
年仅18岁的创业者Eddy Xu创办的Build AI公司,近日开源了Egocentric-10K数据集,成为开源史上规模最大的第一人称视角(egocentric vision)数据集。该数据集包含10,000小时真实工厂环境中的第一人称视频,覆盖2,153名工人的实际操作流程,总容量达16.4TB,包含超过10.8亿帧画面,已通过Hugging Face平台以Apache 2.0许可证开放,支持商业使用与自由修改。 这些视频由工人佩戴头戴式摄像设备在真实车间中录制,完整记录了零件加工、分拣、组装、包装与质检等典型工业任务。数据显示,96.42%的操作涉及至少一只手,76.34%需双手协同,91.66%包含主动物体操控,显著高于此前主流数据集如Ego4D(67.33%)和EPIC-KITCHENS(90.37%)的手部可见率,展现出更强的实用操作特征。 数据按工厂与工人编号分类,采用全高清MP4格式存储,并附带JSON元数据,支持WebDataset格式流式加载与部分下载,便于研究者按需选取特定场景进行模型训练。 Eddy Xu的成长轨迹堪称传奇。初中时便带领无资金、无教练的机器人团队参加VEX世界锦标赛,跻身全球前32名;高中阶段自学编程,通过AP计算机科学考试,并在3个月内出售一家拥有17.8万用户的教育科技初创公司。2025年初,他在哥伦比亚大学期间开发出基于Meta智能眼镜的AI国际象棋系统,实现棋盘视觉识别与实时走法建议,引发广泛关注。 今年,他毅然从哥伦比亚大学辍学,创办Build AI,拒绝超2500万美元股权邀约,吸引多位来自顶级实验室与独角兽企业的成员加入。公司使命明确:构建“物理超级智能”,推动机器人技术普惠全球。9月,Build AI获500万美元融资,由Abstract Ventures、Pear VC与HF0领投,ZFellows及知名棋手Alex Botez亦参与投资。 Build AI定位为全球首家专注于“扩展经济上有用的自我中心人类数据”的企业,核心策略是部署记录设备,大规模采集真实世界中人类操作数据。第一人称视觉能精准捕捉手部动作、视线轨迹与人机交互细节,已被Meta的EgoMimic项目和Figure AI的“Project Go-Big”计划验证有效。后者通过在超10万个住宅单元中采集人类日常行为视频,实现“零样本迁移”,让机器人仅凭观看人类视频即可掌握导航能力,被誉为“互联网规模的人形机器人预训练”。 相较之下,另一路径依赖真实机器人采集数据,如Generalist AI的GEN-0模型已基于27万小时机器人操作数据训练,但成本高昂、扩展困难。而人类视频虽具规模优势,却面临“身体结构差异”带来的动作映射难题。 Build AI坦言,该方向技术风险高、成功概率低,但若成功,将极大加速机器人学习进程,重塑制造业与服务业。目前,Egocentric-10K的完整版与3万帧评估子集均已开放,研究者可通过Python的datasets库直接调用,数据集规模仍在持续扩展中。
