HyperAIHyperAI
il y a 17 jours

CRAFT : Transformateur à Flux d'Attention Croisée pour un Écoulement Optique Robuste

Xiuchao Sui, Shaohua Li, Xue Geng, Yan Wu, Xinxing Xu, Yong Liu, Rick Goh, Hongyuan Zhu
CRAFT : Transformateur à Flux d'Attention Croisée pour un Écoulement Optique Robuste
Résumé

L’estimation du flux optique vise à déterminer le champ de mouvement 2D en identifiant les pixels correspondants entre deux images. Malgré les progrès considérables des méthodes de flux optique basées sur l’apprentissage profond, il reste un défi majeur d’estimer avec précision de grandes translations en présence de flou de mouvement. Cela s’explique principalement par le fait que le volume de corrélation, fondement du correspondance entre pixels, est calculé comme le produit scalaire des caractéristiques convolutionnelles des deux images. La nature locale des caractéristiques convolutionnelles rend ces corrélations particulièrement sensibles à divers types de bruit. En présence de grands déplacements accompagnés de flou de mouvement, de telles corrélations bruitées peuvent entraîner des erreurs importantes dans l’estimation du flux. Pour surmonter ce défi, nous proposons une nouvelle architecture, nommée « CRoss-Attentional Flow Transformer » (CRAFT), visant à réinventer le calcul du volume de corrélation. Dans CRAFT, une couche de Transformer de lissage sémantique transforme les caractéristiques d’une image pour les rendre plus globales et sémantiquement stables. En outre, les corrélations basées sur le produit scalaire sont remplacées par une attention croisée entre cadres (Cross-Frame Attention) issue du Transformer. Cette couche élimine efficacement le bruit des caractéristiques grâce aux projections Query et Key, et calcule des corrélations plus précises. Sur les benchmarks Sintel (Final) et KITTI (avant-plan), CRAFT atteint de nouveaux états de l’art. En outre, afin d’évaluer la robustesse des différents modèles face aux grands mouvements, nous avons conçu une attaque par décalage d’image, qui déplace artificiellement les images d’entrée pour générer des mouvements de grande amplitude. Face à cette attaque, CRAFT se révèle nettement plus robuste que deux méthodes représentatives, RAFT et GMA. Le code source de CRAFT est disponible à l’adresse suivante : https://github.com/askerlee/craft.