DVI : Inpainting vidéo guidé par la profondeur pour les systèmes autonomes

Pour obtenir des vues de rue claires et des simulations photo-réalistes dans le cadre de la conduite autonome, nous présentons un algorithme automatique de remplissage vidéo (video inpainting) capable d’éliminer les agents de trafic des vidéos et de synthétiser les régions manquantes grâce à une guidance fournie par la profondeur ou les nuages de points. En construisant une carte 3D dense à partir de nuages de points assemblés, les trames d’une vidéo sont corrélées géométriquement via cette carte 3D commune. Afin de remplir une région cible à insérer dans une trame donnée, il devient directement possible de transformer les pixels provenant d’autres trames vers la trame courante, tout en respectant correctement les occlusions. En outre, nous pouvons fusionner plusieurs vidéos grâce à un alignement basé sur les nuages de points 3D, ce qui rend possible le remplissage d’une vidéo cible à l’aide de plusieurs vidéos sources. Cette approche vise à résoudre le problème de l’occlusion prolongée, où une région occluse n’a jamais été visible dans l’ensemble de la vidéo. À notre connaissance, nous sommes les premiers à proposer une fusion de plusieurs vidéos pour le remplissage vidéo. Pour valider l’efficacité de notre méthode, nous avons construit un grand jeu de données dédié au remplissage dans un environnement urbain réel, comprenant des images synchronisées et des données LiDAR, incluant de nombreuses scènes complexes, notamment des occlusions prolongées. Les résultats expérimentaux montrent que l’approche proposée surpasser les méthodes de pointe sur l’ensemble des critères évalués, et notamment que l’erreur quadratique moyenne (RMSE) a été réduite d’environ 13 %.