HiMODE : un modèle hybride d'estimation de profondeur omnidirectionnelle à monoculaire

L’estimation de profondeur omnidirectionnelle monoculaire attire actuellement une attention considérable en raison de ses nombreuses applications dans la perception de l’environnement à 360°. Les approches existantes dans ce domaine souffrent toutefois de limitations quant à la reconstruction des détails des petits objets et de pertes de données survenues lors de l’acquisition des cartes de profondeur vérité terrain. Dans ce travail, nous proposons un nouveau modèle d’estimation de profondeur omnidirectionnelle monoculaire, nommé HiMODE, basé sur une architecture hybride CNN+Transformer (encodeur-décodeur), dont les modules sont soigneusement conçus pour atténuer la distorsion et réduire le coût computationnel sans compromettre la performance. Premièrement, nous concevons un réseau pyramidale de caractéristiques fondé sur le bloc HNet afin d’extraire des caractéristiques à haute résolution près des bords. La performance est améliorée davantage grâce à l’introduction d’une couche d’attention auto et croisée, ainsi que de patches spatiaux et temporels respectivement dans l’encodeur et le décodeur Transformer. Par ailleurs, un bloc résiduel spatial est employé pour réduire le nombre de paramètres. En faisant passer conjointement, à travers une couche d’ajustement contextuel, les caractéristiques profondes extraites à partir de l’image d’entrée à chaque bloc du réseau principal, ainsi que les cartes de profondeur brutes prédites par l’encodeur-décodeur Transformer, notre modèle parvient à produire des cartes de profondeur de qualité visuelle supérieure à celle de la vérité terrain. Des études d’ablation approfondies démontrent l’importance de chaque module individuel. Des expériences étendues menées sur trois jeux de données — Stanford3D, Matterport3D et SunCG — montrent que HiMODE atteint un niveau d’performance de pointe pour l’estimation de profondeur monoculaire à 360°.