il y a 16 jours

Le Diable est dans les détails : une attention basée sur fenêtre pour la compression d'images

Renjie Zou, Chunfeng Song, Zhaoxiang Zhang

Résumé

Les méthodes d’encodage d’images apprises ont démontré une performance supérieure en termes de relation taux-distorsion par rapport aux standards classiques de compression d’images. La plupart des modèles existants de compression d’images apprises reposent sur des réseaux de neurones convolutifs (CNN). Malgré leurs contributions importantes, un inconvénient majeur de ces modèles basés sur les CNN réside dans leur architecture, qui n’est pas conçue pour capturer efficacement la redondance locale, en particulier les textures non répétitives, ce qui affecte sévèrement la qualité de reconstruction. Par conséquent, la question centrale de la compression d’images fondée sur l’apprentissage réside dans la capacité à exploiter pleinement à la fois la structure globale et les détails locaux des textures. Inspirés par les avancées récentes des Vision Transformer (ViT) et des Swin Transformer, nous avons constaté qu’une combinaison entre un mécanisme d’attention sensible aux localités et une apprentissage de caractéristiques liées à l’information globale pourrait répondre à ces attentes dans le domaine de la compression d’images. Dans cet article, nous étudions d’abord de manière approfondie l’impact de plusieurs types de mécanismes d’attention sur l’apprentissage des caractéristiques locales, puis introduisons un bloc d’attention locale basé sur des fenêtres, plus simple mais tout aussi efficace. L’attention basée sur des fenêtres proposée est très flexible et peut être intégrée comme composant plug-and-play afin d’améliorer à la fois les modèles CNN et Transformer. En outre, nous proposons un nouveau cadre Symmetrical TransFormer (STF), comprenant des blocs absolus Transformer dans l’encodeur à décimation et le décodeur à augmentation. Des évaluations expérimentales étendues ont montré que la méthode proposée est efficace et surpasser les états de l’art. Le code source est disponible publiquement à l’adresse suivante : https://github.com/Googolxx/STF.