HyperAIHyperAI

Command Palette

Search for a command to run...

李飞飞重磅发声:AGI是营销话术,空间智能才是AI的未来关键

Dans une récente interview diffusée sur Lenny’s Podcast, Fei-Fei Li, figure emblématique de l’intelligence artificielle, a dévoilé une vision profonde et provocante de l’avenir de l’IA, en s’inspirant de son parcours marquant, de la création d’ImageNet à la naissance de World Labs. Son message central : l’IA actuelle, malgré ses progrès spectaculaires dans les modèles linguistiques, souffre d’un défaut fondamental — elle manque de sens spatial, une capacité essentielle à la cognition humaine que Li considère comme la prochaine frontière technologique. Li a rappelé que, il y a seulement une dizaine d’années, le mot « intelligence artificielle » était encore perçu comme un terme risqué dans le monde des affaires. En 2015-2016, de nombreuses entreprises évitaient même de l’utiliser, craignant qu’il ne soit associé à des promesses non tenues. Le tournant est venu en 2012, lorsque Geoffrey Hinton et son équipe ont remporté le concours ImageNet grâce à un réseau de neurones. Ce moment marqua la naissance de l’ère du deep learning — une révolution dont la base était, selon Li, le dataset qu’elle avait initié dès 2006 : ImageNet, une collection de 15 millions d’images annotées, regroupant 22 000 catégories. Ce projet, jugé fou à l’époque, a fourni la matière première pour les modèles d’aujourd’hui, y compris les grands modèles linguistiques comme ChatGPT. Mais aujourd’hui, Li pointe une limite criante : les modèles linguistiques sont des « artisans de mots dans l’obscurité ». Ils peuvent générer du texte fluide, mais échouent lamentablement à comprendre le monde physique. Elle cite un exemple simple : demander à un modèle multimodal de compter le nombre de chaises dans une vidéo d’un bureau — une tâche élémentaire pour un enfant — est au-delà de ses capacités. Il ne peut pas estimer des distances, prédire des interactions physiques, ni manipuler mentalement des objets dans l’espace tridimensionnel. C’est là que surgit la notion de « sens spatial », que Li définit comme la capacité fondamentale à comprendre, naviguer, interagir et prévoir dans un environnement physique. Elle insiste : « La cognition humaine ne repose pas seulement sur le langage. Elle repose sur la compréhension spatiale. » De la conduite à la prise d’un objet, en passant par la découverte de la double hélice de l’ADN ou la mesure de la circonférence terrestre par Ératosthène, toutes ces percées reposent sur une intuition spatiale profonde. En 2022, Li a commencé à explorer les modèles mondiaux — des systèmes capables de représenter, générer et interagir avec un monde tridimensionnel cohérent. Ce rêve s’est concrétisé en 2024 avec la création de World Labs, dont elle est cofondatrice, et le lancement de Marble, le premier modèle mondial génératif à grande échelle. Contrairement aux générateurs vidéo traditionnels qui produisent des séquences planes, Marble crée des mondes 3D navigables, où les utilisateurs peuvent se déplacer, interagir, et même extraire des vidéos selon des angles spécifiques. Les applications sont déjà impressionnantes : des studios de cinéma utilisent Marble pour accélérer la production virtuelle (réduction de 40 fois du temps), des développeurs de jeux exportent des scènes en format 3D, des chercheurs en psychiatrie explorent des environnements immersifs pour étudier les réactions mentales, et des équipes de robotique génèrent des environnements synthétiques pour entraîner leurs systèmes — une tâche autrefois extrêmement coûteuse. Li souligne que la « leçon amère » de Richard Sutton — selon laquelle les modèles simples avec beaucoup de données surpassent toujours les modèles complexes avec peu de données — ne suffit pas pour les robots. Le problème ? Les données physiques sont intrinsèquement tridimensionnelles, mais les modèles actuels les traitent comme des séquences 1D ou 2D. « Le monde n’est pas une chaîne de mots. Il est un espace vivant », affirme-t-elle. Sur le concept d’AGI (intelligence artificielle générale), Li adopte une posture critique. « AGI est davantage un terme marketing qu’un concept scientifique. » Elle insiste sur le fait que personne ne sait vraiment ce qu’est l’AGI, et que les modèles actuels sont loin de reproduire la créativité humaine, la compréhension émotionnelle ou la capacité à déduire des lois fondamentales à partir d’observations — comme l’a fait Newton. Pour Li, l’IA n’est pas une affaire d’algorithmes purs, mais d’humain. C’est une technologie née de l’inspiration humaine, conçue par des humains, et qui doit servir les humains. C’est pourquoi, en 2018, elle a quitté l’industrie pour fonder le Stanford Human-Centered AI Institute (HAI), visant à intégrer l’IA dans des domaines comme la médecine, l’éducation et les sciences humaines. À la question récurrente : « Que devient le rôle de l’humain dans l’ère de l’IA ? », sa réponse est claire : « Oui, chaque personne a une place. » Que vous soyez artiste, infirmier, enseignant ou agriculteur, l’IA doit être un outil au service de votre créativité, de votre expertise, de votre dignité. « La technologie ne doit jamais détruire le sens humain de l’action. » En fin de compte, Li ne croit pas à une IA qui remplacera l’humain. Elle croit à une IA qui complète l’humain — en lui offrant de nouveaux moyens de penser, de créer, d’agir. Et c’est à nous, individus, citoyens, de décider comment cette technologie sera utilisée. Car, comme elle le dit : « L’IA est la discipline la plus jeune de l’humanité. Nous sommes encore à la surface. »

Liens associés

李飞飞重磅发声:AGI是营销话术,空间智能才是AI的未来关键 | Articles tendance | HyperAI