Un modèle mental robotique en temps réel grâce à NVIDIA Warp et Gaussian Splatting
L'article présente une approche innovante pour construire un jumeau numérique dynamique dans un contexte robotique, permettant aux robots de maintenir une représentation en temps réel du monde physique. Cette méthode vise à imiter la capacité humaine à interpréter les images visuelles et à construire un modèle 3D du environnement, tout en simulant des interactions physiques et en anticipant des résultats. Le but est de créer un modèle interne capable de s'adapter et de se corriger constamment, en se basant sur des observations visuelles réelles. L'une des difficultés majeures de la modélisation physique explicite réside dans la nécessité d'avoir des modèles 3D précis, des dynamiques bien réglées et des capteurs modélisés. Cependant, les progrès récents en rendu différentiable, notamment grâce à la technique de Gaussian splatting, permettent de générer des simulateurs à partir de quelques images et d'une connaissance physique de base. Cela réduit la dépendance à une modélisation précise au départ, puisque le simulateur peut être corrigé en continu grâce aux observations réelles. Dans ce système, le rendu différentiable joue un rôle clé, en supervisant le simulateur en temps réel. Il ajuste constamment l'état du modèle jusqu'à ce que les images générées correspondent à celles du monde réel. Lorsqu'il est couplé à un moteur physique fonctionnant à environ 30 Hz, cela crée un boucle de rétroaction robuste. Le simulateur n’a besoin d’être précis que pendant environ 33 millisecondes, et en cas de dérive, le système de rendu le corrige rapidement. L'utilisation de Gaussian splatting, combinée à des GPUs modernes performants, permet de traiter ce processus en temps réel. Cela ouvre la voie à des modèles robotiques capables de s'adapter à des environnements changeants sans nécessiter une multitude de caméras, contrairement aux systèmes classiques. En effet, ces systèmes exigent souvent 30 caméras ou plus pour fonctionner correctement, ce qui n'est pas réalisable en robotique. Pour surmonter ce problème, les chercheurs utilisent des connaissances a priori propres au domaine robotique, comme la position des caméras ou les contraintes physiques des objets. Cela permet d'aller au-delà de la simple reproduction visuelle, en intégrant une modélisation physique fiable, avec une moindre dépendance aux caméras. Le système repose sur une double représentation : des particules qui simulent les interactions physiques, et des Gaussiennes qui génèrent les images visuelles. Les particules déterminent le mouvement des Gaussiennes, tandis que les erreurs visuelles détectées par le rendu différentiable produisent des forces de correction qui réalignent les particules. Cette boucle fermée permet de maintenir un modèle à la fois visuel et physique, précis, adaptable et efficace. Cette approche utilise le moteur physique NVIDIA Warp et la bibliothèque gsplat pour le rendu différentiable. Elle offre une base solide pour des applications futures en intelligence artificielle physique, où les robots pourront mieux comprendre et interagir avec leur environnement. Des experts du domaine soulignent que cette méthode représente un progrès majeur dans la création de modèles robotiques en temps réel. Elle pourrait améliorer les tâches de navigation, de manipulation et de prise de décision en environnements dynamiques. Les entreprises comme NVIDIA, spécialisées dans les outils de simulation et de rendu, sont en position de mener des recherches avancées dans ce domaine.