18 ans, sans diplôme, il ouvre le plus grand jeu de données pour entraîner les robots à apprendre comme un humain
À peine âgé de 18 ans, le jeune entrepreneur Eddy Xu a récemment annoncé l’ouverture au public de Egocentric-10K, le plus vaste ensemble de données visuelles en perspective première jamais créé. Ce projet, porté par sa start-up Build AI, réunit 10 000 heures de vidéos enregistrées dans des usines réelles, capturant les gestes de 2 153 ouvriers au travail. Avec une taille totale de 16,4 téraoctets et plus de 10,8 milliards de cadres, le jeu de données a été déployé sur Hugging Face sous licence Apache 2.0, autorisant son utilisation commerciale et sa modification. Les vidéos, prises en pleine activité industrielle — de l’usinage à l’assemblage, en passant par le tri, l’emballage et le contrôle qualité — ont été enregistrées à l’aide de casques équipés de caméras, offrant une vision authentique des opérations humaines. Les statistiques révèlent que 96,42 % des tâches impliquent au moins une main, 76,34 % nécessitent une coordination bilatérale, et 91,66 % incluent des manipulations actives d’objets. Ces taux dépassent largement ceux des données existantes : par exemple, Ego4D affiche 67,33 % de visibilité des mains, tandis qu’EPIC-KITCHENS enregistre 90,37 %. Chaque vidéo, stockée en format MP4 Full HD, est organisée par usine et par opérateur, et enrichie de métadonnées JSON (usine, opérateur, durée, résolution, fréquence d’image, etc.). Le format WebDataset permet un chargement par flux et un téléchargement partiel, offrant aux chercheurs une flexibilité optimale pour leurs expérimentations. Eddy Xu, fondateur de Build AI, incarne une trajectoire atypique. En 2021, alors qu’il était en troisième, il a mené une équipe de robots VEX au classement mondial, terminant 32e sur 20 000 équipes — sans entraîneur, sans financement, ni soutien parental. À l’école Miller School of Albemarle, il a développé des logiciels d’ingénierie pour une équipe de canots en béton, maîtrisé le Java et le Python dès le lycée, et obtenu une certification AP en informatique. Ses exploits entrepreneurial incluent la levée de 120 000 dollars pour une équipe de robotique, une victoire au concours DECA parmi 200 000 participants, et la vente en trois mois d’une startup éducative comptant 178 000 utilisateurs. En 2025, alors qu’il étudiait à Columbia University, il a conçu un système d’échecs intelligent intégré à des lunettes Meta, utilisant la vision par ordinateur pour analyser le plateau et proposer les meilleurs coups en temps réel — un projet qui a suscité un vif intérêt sur les réseaux sociaux. À présent, après avoir décliné plus de 25 millions de dollars en capitaux propres, Eddy Xu a fondé Build AI en quittant l’université. Son ambition est claire : « Construire une intelligence physique super-intelligente pour apporter la prospérité à tous ». La société a récemment levé 5 millions de dollars, avec Abstract Ventures, Pear VC et HF0 comme principaux investisseurs, accompagnés par des figures comme Alex Botez, joueur d’échecs ayant utilisé son système. Build AI se positionne comme la première entreprise dédiée à la collecte à grande échelle de données humaines en perspective première — une approche fondée sur l’idée que les robots doivent apprendre à partir des comportements réels des humains. Cette stratégie, déjà explorée par Meta avec son projet EgoMimic ou Figure AI avec son initiative « Project Go-Big », vise à entraîner des robots capables de généraliser à de nouveaux environnements à partir de vidéos humaines. Figure AI affirme même avoir atteint une « migration zéro-exemple » : un robot peut apprendre une tâche de navigation en regardant simplement des vidéos humaines, sans données robotiques spécifiques. Face à cette voie, une autre approche consiste à collecter des données directement à partir de robots réels — comme le fait Generalist AI avec ses 270 000 heures de données d’interaction robotique. Chaque méthode présente des avantages et des limites : les vidéos humaines sont abondantes mais souffrent d’un écart d’embodiment (la morphologie humaine diffère de celle des robots), tandis que les données robotiques sont précises mais coûteuses à produire à grande échelle. Build AI affirme avoir collecté plus de données en perspective première que toute autre entreprise à ce jour, bien que les détails sur leur accessibilité restent limités. Leur projet est clairement une magnifique pari technologique à haut risque, mais aussi à fort potentiel. Comme l’indique leur site : « Si nous avons raison, nous pouvons non seulement accélérer la recherche en robotique, mais aussi transformer la vie de milliards de personnes. » Le dataset Egocentric-10K, entièrement disponible sur Hugging Face, est désormais un outil clé pour la recherche. Des versions complètes et un sous-ensemble d’évaluation de 30 000 cadres sont accessibles via la bibliothèque Python datasets. Et le travail ne fait que commencer.
