Flux de Scène Neural Rapide

Le Neural Scene Flow Prior (NSFP) suscite un intérêt considérable au sein de la communauté de la vision par sa robustesse inhérente aux effets hors distribution (OOD) et sa capacité à traiter des nuages de points lidar denses. Cette approche utilise un réseau neuronal de coordonnées pour estimer le flux scénique en temps réel, sans aucune formation préalable. Cependant, elle peut être jusqu'à 100 fois plus lente que les méthodes d'apprentissage actuelles de pointe. Dans d'autres domaines tels que la reconstruction d'images, de vidéos et de fonctions de rayonnement, les innovations visant à accélérer les performances en temps réel des réseaux de coordonnées se sont principalement concentrées sur des modifications architecturales. Dans cet article, nous démontrons que le flux scénique est différent -- avec le goulot d'étranglement computationnel principal provenant lui-même de la fonction de perte (c'est-à-dire la distance de Chamfer). De plus, nous redécouvrons la transformation en distance (DT) comme une fonction de perte efficace et sans correspondance qui accélère considérablement l'optimisation en temps réel. Notre approche du flux scénique neuronal rapide (FNSF) rapporte pour la première fois des performances en temps réel comparables aux méthodes d'apprentissage, sans aucune formation ni biais OOD sur deux des plus grands jeux de données lidar ouverts pour la conduite autonome (AV), à savoir Waymo Open et Argoverse.