IA : comment l'apprentissage en 3D et la compréhension de l'espace
Les modèles d'intelligence artificielle actuels excellents dans la reconnaissance d'images en deux dimensions, mais ils échouent souvent à comprendre la géométrie réelle de l'espace physique. Cette limitation constitue le principal obstacle au développement de robots autonomes, de véhicules sans conducteur et de jumeaux numériques précis. La reconstruction géométrique à partir de photographies est aujourd'hui possible, mais l'ajout de sens sémantique à ces points 3D reste coûteux et complexe. Une nouvelle approche combinant trois couches technologiques différentes permet de résoudre ce problème efficacement. La première couche utilise l'estimation de la profondeur métrique depuis une seule image. Contrairement à la profondeur relative qui indique seulement quels objets sont plus proches, la profondeur métrique fournit des distances physiques exactes en mètres. Des modèles récents comme Depth-Anything-3 génèrent ces cartes de profondeur en temps réel sur des ordinateurs grand public. La seconde couche repose sur des modèles de segmentation de fondation, tels que le Segment Anything Model (SAM). Ces outils peuvent identifier et délimiter n'importe quel objet dans une image en réponse à une invite textuelle ou à un clic, sans avoir été entraînés spécifiquement sur ce type d'objet. Ils produisent des masques 2D précis mais restent confinés à la dimension bidimensionnelle. La troisième couche, la plus cruciale et la moins connue, est la fusion géométrique. Elle sert de pont entre la perception 2D et la géométrie 3D. En utilisant les données de profondeur et la position de la caméra, les masques 2D sont projetés dans un nuage de points 3D. Cependant, cette étape est techniquement difficile car elle doit gérer le bruit des modèles de profondeur et les conflits entre plusieurs points de vue. Le processus de fusion fonctionne en quatre étapes logiques. D'abord, un filtre de bruit élimine les points situés trop loin de toute caméra, considérés comme des artefacts. Ensuite, un index spatial réduit la taille des données à traiter. Ensuite, le système identifie les points non étiquetés qui nécessitent une détermination. Enfin, une procédure de vote démocratique attribue un label à chaque point en fonction des labels des points voisins immédiats. Cette méthode permet d'amplifier considérablement la couverture des données. Dans une scène typique, la projection directe depuis quelques images ne couvre qu'environ 20 % du nuage de points. Après l'application de la fusion géométrique, cette couverture atteint environ 78 %. Ce facteur d'amplification de 3,5 fois s'obtient sans entraînement supplémentaire, en moins de dix secondes sur un ordinateur standard, et fonctionne sur divers types d'environnements, des intérieurs aux sites industriels. Bien que cette méthode soit puissante, des défis subsistent, notamment en ce qui concerne la cohérence multi-vues. Les modèles 2D peuvent être contradictoires lorsqu'ils observent les mêmes objets sous des angles différents, ce qui crée des erreurs mineures aux limites entre les objets. Les recherches futures visent à intégrer cette cohérence 3D directement dans les modèles d'inférence 2D, créant ainsi une boucle de rétroaction complète. À court terme, cette technologie rend l'annotation de données 3D entièrement automatique, transformant la capture vidéo en scènes étiquetées riches en informations. Elle permet aux entreprises de passer d'une annotation manuelle longue et coûteuse à une génération de données rapide et économique, préparant ainsi le terrain pour une utilisation généralisée de l'IA dans le monde physique.
