Fusion adaptative de profondeur monoculaire et multiperpective pour la conduite autonome

L’estimation de profondeur à plusieurs vues a atteint des performances remarquables sur diverses bases de tests. Toutefois, presque tous les systèmes actuels à plusieurs vues reposent sur des positions de caméra idéales prédéfinies, qui sont inaccessibles dans de nombreux scénarios du monde réel, tels que la conduite autonome. Dans ce travail, nous proposons un nouveau benchmark de robustesse pour évaluer les systèmes d’estimation de profondeur dans diverses conditions de poses bruitées. De manière surprenante, nous constatons que les méthodes actuelles d’estimation de profondeur à plusieurs vues, ainsi que les méthodes de fusion entre vue unique et vue multiple, échouent lorsque les poses sont bruitées. Pour relever ce défi, nous proposons un système d’estimation de profondeur fondé sur la fusion entre vue unique et vue multiple, qui intègre de manière adaptative les résultats à haute confiance provenant des deux sources afin d’assurer à la fois une estimation robuste et précise. Le module de fusion adaptatif réalise la fusion en sélectionnant dynamiquement les régions à haute confiance entre les deux branches, selon une carte de confiance enveloppante. Ainsi, le système privilégie naturellement la branche la plus fiable en présence de scènes sans texture, de mauvaises calibrations, d’objets dynamiques, ou d’autres conditions dégradées ou difficiles. Notre méthode surpasse les méthodes d’état de l’art à plusieurs vues et de fusion dans les tests de robustesse. En outre, nous obtenons des performances de pointe sur des benchmarks exigeants (KITTI et DDAD) lorsque les estimations de pose sont précises. Site du projet : https://github.com/Junda24/AFNet/.