NimbleD : Amélioration de l'estimation de profondeur monocablée auto-supervisée grâce à des pseudo-étiquettes et à un pré-entraînement à grande échelle sur des vidéos

Nous introduisons NimbleD, un cadre d'apprentissage efficace pour l'estimation de profondeur monoscopique en mode auto-supervisé, qui intègre une supervision issue de pseudo-étiquettes générées par un grand modèle vision. Ce cadre n'exige pas de connaître les paramètres intrinsèques de la caméra, permettant ainsi un pré-entraînement à grande échelle sur des vidéos disponibles publiquement. Notre stratégie d'apprentissage simple mais efficace améliore significativement les performances des modèles rapides et légers, sans ajouter de surcharge computationnelle, leur permettant d'atteindre des performances comparables à celles des modèles de pointe en estimation de profondeur monoscopique auto-supervisée. Cette avancée est particulièrement bénéfique pour les applications de réalité virtuelle et augmentée, qui nécessitent une inférence à faible latence. Le code source, les poids du modèle et les remerciements sont disponibles à l'adresse suivante : https://github.com/xapaxca/nimbled.