HyperAIHyperAI
il y a 2 mois

Empaquetage 3D pour l'estimation de profondeur monoculaire auto-supervisée

Vitor Guizilini; Rares Ambrus; Sudeep Pillai; Allan Raventos; Adrien Gaidon
Empaquetage 3D pour l'estimation de profondeur monoculaire auto-supervisée
Résumé

Bien que les caméras soient omniprésentes, les plateformes robotiques s'appuient généralement sur des capteurs actifs comme le LiDAR pour la perception 3D directe. Dans ce travail, nous proposons une nouvelle méthode d'estimation de profondeur monoculaire auto-supervisée combinant la géométrie avec un nouveau réseau neuronal profond, PackNet, appris uniquement à partir de vidéos monoculaires non étiquetées. Notre architecture utilise des blocs de compression et décompression symétriques novateurs pour apprendre conjointement à compresser et décompresser des représentations préservant les détails en utilisant des convolutions 3D. Bien qu'auto-supervisée, notre méthode surpasse d'autres méthodes auto-supervisées, semi-supervisées et pleinement supervisées sur le benchmark KITTI. Le biais inductif 3D dans PackNet lui permet de s'adapter à la résolution d'entrée et au nombre de paramètres sans surapprentissage, généralisant mieux sur des données hors domaine telles que le jeu de données NuScenes. De plus, elle n'a pas besoin d'un pré-entraînement supervisé à grande échelle sur ImageNet et peut fonctionner en temps réel. Enfin, nous mettons à disposition DDAD (Dense Depth for Automated Driving), un nouveau jeu de données urbain pour la conduite automatisée avec une évaluation de profondeur plus difficile et précise, grâce à des profondeurs véritables plus longues et plus denses générées par des LiDARs à haute densité montés sur une flotte de voitures autonomes opérant dans le monde entier.

Empaquetage 3D pour l'estimation de profondeur monoculaire auto-supervisée | Articles de recherche récents | HyperAI