0,4 seconde pour reconstruire en 4D une scène de conduite dynamique : DGGT, le nouveau record de vitesse et de précision de l’IA de l’X (Tongji)
Le laboratoire de recherche en intelligence artificielle de l’Université de Tsinghua (AIR), dirigé par le professeur Zhao Hao en collaboration avec Xiaomi Auto et d’autres institutions, a présenté DGGT (Driving Gaussian Grounded Transformer), le premier cadre d’inférence en temps réel pour la reconstruction 3D-4D de scènes dynamiques de conduite, sans nécessiter de calibration des caméras ni d’optimisation par scène. Ce système révolutionnaire permet de reconstruire des scènes en 3D à partir d’images rares et non calibrées en une seule passe forward, en seulement 0,4 seconde, tout en produisant simultanément les positions des caméras, les profondeurs, les segments dynamiques et une représentation éditable basée sur des Gaussiennes 3D. Cette avancée ouvre la voie à une simulation d’autopilotage plus rapide, évolutive et scalable. Contrairement aux méthodes traditionnelles, qui dépendent fortement de l’optimisation itérative, de la calibration précise des capteurs et de fenêtres temporelles courtes, DGGT intègre la prédiction des paramètres de pose caméra comme sortie du modèle, transformant ainsi la reconstruction en un processus entièrement prédictif. Le cadre repose sur un encodeur ViT enrichi par des connaissances préalables DINO, qui fusionnent les informations visuelles pour générer des caractéristiques partagées. Ces dernières sont ensuite traitées par six têtes de prédiction parallèles : pose caméra, profondeur, dynamique, mouvement, vieillissement (lifespan) et ciel. Le résultat est rendu via une diffusion monopasse, qui corrige les artefacts d’interpolation et améliore la cohérence spatiale et temporelle. Les évaluations sur le jeu de données Waymo montrent que DGGT surpassent significativement les méthodes existantes, notamment STORM, avec une amélioration de plus de 50 % sur les métriques clés de perception. En particulier, DGGT atteint un EPE_3D de 0,183 m, démontrant une correspondance 3D dense et fiable. Le modèle excelle également en reconstruction de scènes dynamiques complexes, évitant les artefacts de décalage et les erreurs d’alignement temporel qui affectent les approches antérieures. Une caractéristique remarquable de DGGT est sa capacité de généralisation zéro-échantillon : entraîné uniquement sur Waymo, il fonctionne de manière exceptionnelle sur nuScenes et Argoverse2 sans aucun ajustement. Les résultats montrent une réduction de 61,4 % et 52,5 % respectivement sur la métrique LPIPS, illustrant une robustesse exceptionnelle face à des configurations de capteurs et des trajets de conduite variés. Cette performance s’explique par la conception « sans pose » du modèle, qui réduit le risque de surapprentissage aux spécificités d’un ensemble de données. DGGT est également hautement évolutive : même en augmentant le nombre d’images d’entrée de 4 à 16, les performances restent stables, contrairement aux méthodes comparables qui déclinent. Cela en fait un outil idéal pour le traitement massif de logs de conduite. Le module « lifespan head » joue un rôle clé dans la modélisation des changements subtils des surfaces statiques (lumière, ombres, reflets) au fil du temps. Son élimination entraîne une chute de 3,2 dB en PSNR, montrant son importance pour la cohérence temporelle. Le module « motion head » quant à lui prédit des déplacements 3D par pixel, assurant une correspondance fiable entre les objets dynamiques à travers les trames, réduisant ainsi les traînées et les artefacts de mouvement. Enfin, DGGT permet une édition fine au niveau des instances : ajout, suppression ou déplacement de véhicules, insertion de nouveaux objets (vélos, piétons), avec une correction automatique par diffusion pour combler les trous et lisser les bords. Le résultat est une scène 4D naturelle, fidèle et prête à être utilisée pour la simulation, l’évaluation ou la synthèse de données dans les systèmes autonomes. DGGT n’est donc pas seulement une solution de reconstruction, mais un générateur d’actifs 4D éditable, offrant un potentiel majeur pour l’industrie de l’automobile autonome.
