Réévaluer l'estimation de l'homographie plane à l'aide de champs de perspective
L’estimation de l’homographie plane consiste à calculer une application linéaire bijective entre les pixels de deux images. Bien que ce problème ait été abordé à l’aide de réseaux de neurones convolutifs (CNN), les méthodes existantes se contentent de prédire les coordonnées des quatre coins à l’aide d’une couche dense précédée d’une couche entièrement connectée. Cette représentation vectorielle altère la structure spatiale des coins, qui possèdent pourtant un ordre spatial clair. De plus, quatre points constituent le nombre minimal nécessaire pour calculer une homographie, ce qui rend cette approche sensible aux perturbations. Dans cet article, nous proposons un cadre conceptuellement simple, fiable et général pour l’estimation d’homographie. Contrairement aux travaux antérieurs, nous formulons ce problème comme un champ de perspective (Perspective Field, PF), qui modélise l’essence même de l’homographie : une bijection pixel à pixel. Ce champ de perspective est naturellement appris par le réseau convolutif résiduel entièrement convolutif proposé, nommé PFNet, permettant de préserver l’ordre spatial de chaque pixel. En outre, puisque le déplacement de chaque pixel peut être extrait directement à partir du PF, cette approche permet une estimation robuste de l’homographie grâce à l’utilisation de correspondances denses. Nos expériences montrent que la méthode proposée dépasse les approches classiques basées sur les correspondances et les méthodes CNN de pointe en termes de précision, tout en nécessitant une taille de réseau plus réduite. Enfin, la nouvelle paramétrisation de cette tâche est générale et peut être mise en œuvre avec n’importe quelle architecture de réseau convolutif entièrement convolutif (FCN).