HyperAIHyperAI
il y a 17 jours

TriStereoNet : Un cadre trinoculaire pour l’estimation de la disparité à plusieurs bases

Faranak Shamsafar, Andreas Zell
TriStereoNet : Un cadre trinoculaire pour l’estimation de la disparité à plusieurs bases
Résumé

La vision stéréo est une technique efficace pour l'estimation de profondeur, largement applicable aux conduites autonomes en milieu urbain comme sur autoroute. Bien que diverses approches basées sur le deep learning aient été développées pour la stéréovision, les données d'entrée issues d'une configuration binoculaire à base fixe restent limitées. Pour pallier ce problème, nous proposons un réseau end-to-end traitant les données issues d'une configuration trinoculaire, combinant une paire stéréo étroite et une paire stéréo large. Dans cette architecture, deux paires de données binoculaires partageant une même image de référence sont traitées à l’aide de poids partagés au sein du réseau et d’une fusion au niveau intermédiaire. Nous introduisons également une méthode de fusion appelée Guided Addition pour combiner les données 4D issues des deux bases. En outre, nous proposons une stratégie d’apprentissage itérative et séquentielle, à la fois auto-supervisée et supervisée, sur des jeux de données réels et synthétiques, rendant l’entraînement du système trinoculaire pratique sans nécessiter de données de vérité terrain pour les données réelles. Les résultats expérimentaux montrent que le réseau de disparité trinoculaire surpasse significativement la configuration où chaque paire est traitée séparément dans une architecture similaire. Code et jeu de données : https://github.com/cogsys-tuebingen/tristereonet.

TriStereoNet : Un cadre trinoculaire pour l’estimation de la disparité à plusieurs bases | Articles de recherche récents | HyperAI