ShadowMaskFormer : Embeddings de patchs augmentés par des masques pour l'élimination des ombres

Le modèle Transformer est récemment apparu comme la référence de facto pour les tâches de vision par ordinateur et a également été appliqué avec succès à la suppression des ombres. Cependant, ces méthodes existantes reposent fortement sur des modifications complexes des mécanismes d'attention au sein des blocs Transformer, tout en utilisant un plongement de patch générique. En conséquence, cela entraîne souvent des conceptions architecturales complexes nécessitant des ressources de calcul supplémentaires. Dans ce travail, nous visons à explorer l'efficacité de l'intégration d'informations sur les ombres dans les premières étapes du traitement. À cette fin, nous proposons un cadre basé sur le Transformer avec un nouveau plongement de patch spécifiquement adapté à la suppression des ombres, baptisé ShadowMaskFormer. Plus précisément, nous présentons un plongement de patch augmenté par un masque simple et efficace pour intégrer les informations sur les ombres et favoriser l'accent mis par le modèle sur l'acquisition de connaissances pour les régions ombrées. Des expériences approfondies menées sur les jeux de données de référence ISTD, ISTD+ et SRD démontrent l'efficacité de notre méthode face aux approches de pointe actuelles tout en utilisant moins de paramètres du modèle. Notre implémentation est disponible à l'adresse suivante : https://github.com/lizhh268/ShadowMaskFormer.