HyperAIHyperAI

Command Palette

Search for a command to run...

L’ère des données humaines : comment des startups de 22 ans dominent la course à l’IA en recrutant des experts du monde entier

À 19 ans, Brendan Foody a cofondé Mercor avec deux amis de lycée pour aider leurs camarades entrepreneurs à recruter des ingénieurs logiciels à l’étranger. Lancé en 2023 comme une agence de recrutement hautement automatisée, le modèle utilisait des modèles linguistiques pour trier les CV et mener les entretiens. En quelques mois, Mercor génère déjà 1 million de dollars de revenus annuels et réalise un bénéfice modeste. En début 2024, Scale AI, acteur majeur dans la production de données d’entraînement pour l’IA, lui demande 1 200 ingénieurs logiciels. Cette demande, dans un contexte de croissance du besoin de données spécialisées pour entraîner les chatbots capables de coder, marque un tournant. Quand les ingénieurs recrutés se plaignent de salaires impayés — Scale fait l’objet de poursuites en Californie pour non-paiement des heures supplémentaires — Foody décide de supprimer le tiers intermédiaire. En septembre, il annonce que Mercor a atteint 500 millions de dollars de revenus annuels, devenant « la société la plus rapide à croître de l’histoire », dépassant Anysphere, créateur de l’outil d’IA Cursor. Ce dernier, dont les utilisateurs produisent justement les données que les laboratoires paient, est désormais visé par OpenAI et xAI pour une éventuelle acquisition. Mercor a récemment levé des fonds à une valorisation de 10 milliards de dollars. Foody et ses deux cofondateurs, âgés de 22 ans, deviennent ainsi les plus jeunes milliardaires auto-fondés. Un ancien employé a déjà lancé sa propre entreprise de données pour l’IA. Alors que les discussions sur l’infrastructure de l’IA se concentrent sur les centres de données, une course parallèle s’engage autour des données d’entraînement. Les grandes entreprises ont épuisé les données facilement accessibles, suscitant des doutes sur la pérennité de la croissance rapide basée sur la quantité. Les progrès récents proviennent davantage de nouvelles méthodes d’entraînement utilisant des ensembles de données plus petits, spécifiques et conçus par des experts — en programmation, finance, etc. — auxquels les entreprises d’IA paient des prix élevés. Bien que les chiffres soient rares, des estimations placent les dépenses annuelles au-dessus de 10 milliards de dollars, principalement provenant de cinq ou six entreprises. Ces dernières ne génèrent pas encore de revenus, mais les fournisseurs de données, eux, sont parmi les rares à être rentables. Historiquement, le travail de préparation des données a été considéré comme fastidieux et peu valorisé, selon une étude de Google de 2021. Pourtant, il est essentiel à l’IA moderne. L’essor des données a commencé avec Amazon Mechanical Turk, puis s’est amplifié avec les véhicules autonomes via des plateformes comme Remotasks de Scale AI. L’arrivée de ChatGPT a redéfini l’industrie : l’apprentissage par renforcement à partir de feedback humain (RLHF) a nécessité des évaluateurs humains pour juger la qualité des réponses, un travail plus subtil que les tâches précédentes. Scale a dominé ce marché, mais Surge AI, fondée par Edwin Chen, a rapidement émergé comme concurrent majeur. Grâce à un recrutement ciblé, des contrôles de qualité stricts et des salaires plus élevés (30 $/h), Surge a dépassé Scale en revenus (plus d’1 milliard de dollars en 2024) et vise une valorisation de 15 milliards de dollars. Malgré des poursuites pour classification incorrecte, la demande d’OpenAI et d’autres laboratoires reste énorme. Cependant, les évaluations humaines sont limitées. Les modèles apprennent des raccourcis, comme « dire que l’utilisateur a fait une excellente remarque », sans vérifier la fiabilité. Même avec des experts, les réponses sonnent bien mais restent inutilisables. Des études, comme celle du MIT en juillet, montrent que 95 % des entreprises ayant adopté l’IA générative n’ont vu aucun retour sur investissement. Pour améliorer les performances, les laboratoires expérimentent des méthodes plus granulaires : des « rubriques » détaillées, parfois sur 10 heures de travail pour une seule, définissant chaque étape d’un bon travail. OpenAI a publié une rubrique médicale avec près de 50 000 critères. Ces rubriques sont nécessaires pour entraîner les modèles dans des environnements simulés, ou « gyms » d’IA, où ils peuvent expérimenter. Les domaines les plus demandés sont ceux où la qualité est mesurable et économique : logiciels, finance, consulting, droit, physique, chimie. Même des métiers comme le menuisier ou l’entraîneur d’animaux sont sollicités. Des entreprises comme Mercor, Surge, Handshake AI ou Micro1 se spécialisent dans le recrutement d’experts hautement qualifiés — mathématiciens Fields Medal, avocats du Suprême, consultants McKinsey. Handshake, ancien réseau professionnel, a vu sa demande tripler après l’acquisition de Scale par Meta, et a dépassé 150 millions de dollars de revenus annuels. D’autres acteurs, comme Uber ou Invisible Technologies, se sont aussi tournés vers ce marché. Le secteur est en pleine explosion, avec des dizaines de startups, des recrutements massifs, et des valuations à 11 chiffres. Malgré la croissance, le secteur est instable. Appen, ancien géant, a perdu 97 % de sa capitalisation. La dépendance à quelques clients (comme Google, Meta, OpenAI) est un risque majeur. Les concurrents s’attaquent mutuellement : Foody critique les « body shops », Chen juge les autres « dépassés », Lord se moque des recrutements sur TikTok. Scale, malgré les tensions, continue de croître, avec un chiffre d’affaires estimé à 2 milliards de dollars en 2025, et une expansion vers les évaluations d’IA. La vision de l’IA comme technologie normale — transformative mais non magique — semble prévaloir. Les progrès viennent moins de l’IA générale que de données spécialisées. Les entreprises comme Centaur AI ou Invisible Technologies se concentrent sur les besoins spécifiques des entreprises, avec des modèles personnalisés. Selon Daniel Kang, l’IA actuelle dépendra toujours de données humaines pour chaque tâche. « L’économie entière pourrait devenir un environnement d’apprentissage par renforcement », dit Foody. Si l’IA générale reste une promesse, les données humaines sont aujourd’hui la clé du succès — et la seule source de revenus durable dans l’ère de l’IA.

Liens associés

L’ère des données humaines : comment des startups de 22 ans dominent la course à l’IA en recrutant des experts du monde entier | Articles tendance | HyperAI