18-Jähriger gründet AI-Startup, veröffentlicht größtes Datenbank für Roboterlernen
18岁的创业者Eddy Xu创办的Build AI近日开源了Egocentric-10K数据集,成为全球规模最大、质量最高的第一人称视角工厂操作视频数据集。该数据集涵盖10,000小时真实车间场景视频,覆盖2,153名工人在零件加工、组装、分拣、包装与质检等全流程中的操作,总容量达16.4TB,包含超过10.8亿帧画面,已通过Hugging Face平台以Apache 2.0许可证开放,支持商业使用与自由修改。视频采用全高清MP4格式,按工厂与工人编号分类,并附带详细JSON元数据,支持WebDataset流式加载与部分下载,便于研究者精准选取特定场景数据进行训练。 与现有数据集相比,Egocentric-10K展现出显著优势:96.42%的视频包含至少一只手操作,76.34%涉及双手协同,91.66%包含主动物体操纵,远高于Ego4D(67.33%)和EPIC-KITCHENS(90.37%)的手部可见率。这一高精度、高真实性的数据为机器人学习人类操作提供了前所未有的训练基础。Eddy Xu强调,这是“机器人学习的数据扩展时代”的开端,旨在推动机器人通过观察人类实现通用技能迁移。 Xu的成长轨迹堪称传奇:初三即带队参加VEX机器人世界锦标赛并跻身全球前32;高中期间自学编程,通过AP计算机考试,并创办多个创业项目,包括赢得全国锦标赛的竞技机器人团队、在DECA商业竞赛中脱颖而出、3个月内出售一家拥有17.8万用户的教育科技公司。2025年初,他在哥伦比亚大学期间开发基于Meta智能眼镜的AI国际象棋系统,引发广泛关注。同年,他毅然辍学创办Build AI,拒绝超2500万美元股权邀约,吸引来自学术界、顶级实验室及初创企业的顶尖人才加入。 Build AI聚焦“扩展经济上有用的自我中心人类数据”,核心策略是部署记录设备在全球企业中采集真实操作视频。其技术路径呼应Meta的EgoMimic与Figure AI的“Project Go-Big”计划——后者已在超10万个住宅单元中采集人类日常行为视频,实现“零样本人类到机器人迁移”。相较之下,Build AI的数据更具工业场景针对性,填补了制造业机器人训练数据的空白。 尽管人类视频数据具有采集成本低、规模大等优势,但存在“身体结构差距”难题,即人类动作难以直接映射至机器人。另一路径如Generalist AI依赖机器人自身交互数据(已超27万小时),虽无映射问题但成本高昂。Build AI选择前者,押注大规模人类行为数据可催生通用机器人智能,尽管面临技术不确定性,但公司明确表示这是“高风险、高回报”的前沿探索。 目前,Egocentric-10K完整版及3万帧评估子集已上线,支持Python直接加载,研究社区反响热烈。公司正持续扩充数据规模,致力于构建“物理超级智能”,最终实现“为所有人带来富足”的愿景。 业内专家认为,Egocentric-10K是机器人领域里程碑式的数据资产,其真实场景与高操作密度将极大加速机器人泛化能力的发展。尽管实现“人类动作到机器人执行”的映射仍具挑战,但此类大规模自我中心数据集的开源,标志着机器人学习正从模拟走向现实。Build AI的崛起也反映出新一代创业者正以极低年龄介入前沿科技,推动AI与物理世界的深度融合。
