Perte perceptuelle pour une estimation robuste de l'homographie non supervisée

L’estimation de l’homographie constitue souvent une étape indispensable dans de nombreuses tâches de vision par ordinateur. Les approches existantes, toutefois, manquent de robustesse face aux variations d’éclairage et/ou aux changements de point de vue plus importants. Dans cet article, nous proposons une perte d’estimation d’homographie implicite bidirectionnelle (biHomE) pour l’estimation non supervisée d’homographie. La perte biHomE minimise la distance dans l’espace des caractéristiques entre l’image déformée à partir du point de vue source et l’image correspondante issue du point de vue cible. Étant donné que nous utilisons un extracteur de caractéristiques pré-entraîné fixe et que la seule composante apprenable de notre cadre est le réseau d’homographie, nous découplons efficacement l’estimation d’homographie de l’apprentissage des représentations. Nous intégrons une étape supplémentaire de distorsion photométrique lors de la génération du jeu de données synthétique COCO afin de mieux représenter les variations d’éclairage observées dans les scénarios du monde réel. Nous montrons que biHomE atteint des performances de pointe sur le jeu de données synthétique COCO, qui sont également comparables ou supérieures à celles des approches supervisées. En outre, les résultats expérimentaux démontrent la robustesse de notre méthode face aux variations d’éclairage par rapport aux méthodes existantes.