ACDNet : convolution dilatée combinée adaptativement pour l'estimation de profondeur panoramique monoscopique

L'estimation de profondeur constitue une étape essentielle pour la reconstruction 3D à partir d'images panoramiques ces dernières années. Les images panoramiques conservent l'information spatiale complète, mais introduisent des distorsions dues à la projection équirectangulaire. Dans cet article, nous proposons ACDNet, un réseau basé sur une convolution dilatée combinée de manière adaptative, afin de prédire une carte de profondeur dense à partir d'une image panoramique monoscopique. Plus précisément, nous combinons des noyaux de convolution à différentes dilatations afin d'étendre le champ réceptif dans le cadre de la projection équirectangulaire. Parallèlement, nous introduisons un module d'agrégation canal-par-canal adaptatif, permettant de synthétiser les cartes de caractéristiques et d'obtenir des zones d'attention diversifiées au sein du champ réceptif selon les canaux. Grâce à l'utilisation de l'attention canal-par-canal dans la conception du module d'agrégation canal-par-canal adaptatif, le réseau peut capturer et exploiter efficacement les informations contextuelles entre canaux. Enfin, nous menons des expériences d'estimation de profondeur sur trois jeux de données (à la fois virtuels et réels), et les résultats expérimentaux démontrent que notre ACDNet surpasse de manière significative les méthodes actuelles de l'état de l'art (SOTA). Nos codes et paramètres de modèle sont disponibles à l'adresse suivante : https://github.com/zcq15/ACDNet.