Compression d’images apprise avec des architectures hybrides Transformer-CNN

Les méthodes d’entraînement de compression d’image (LIC) ont montré des progrès prometteurs et une performance taux-distorsion supérieure par rapport aux normes classiques de compression d’image. La plupart des méthodes LIC existantes reposent sur des réseaux de neurones à convolution (CNN) ou sur des architectures basées sur les Transformers, chacune présentant des avantages distincts. L’exploitation combinée de ces deux approches constitue un axe d’étude pertinent, mais soulève deux défis majeurs : 1) comment fusionner efficacement ces deux méthodes ? 2) comment atteindre une performance élevée tout en maintenant une complexité adaptée ? Dans cet article, nous proposons un bloc parallèle efficace, appelé Mélange Transformer-CNN (TCM), dont la complexité est contrôlable, permettant d’intégrer la capacité de modélisation locale des CNN et la capacité de modélisation non locale des Transformers afin d’améliorer l’architecture globale des modèles de compression d’image. En outre, inspirés des avancées récentes dans les modèles d’estimation d’entropie et les modules d’attention, nous introduisons un modèle d’entropie par canal basé sur des modules d’attention à faible coût en paramètres (SWAtten), conçus à partir d’une architecture Swin-Transformer et utilisant une compression par canal. Les résultats expérimentaux démontrent que la méthode proposée atteint des performances de taux-distorsion de pointe sur trois jeux de données de résolutions différentes (à savoir Kodak, Tecnick et CLIC Professional Validation), surpassant ainsi les méthodes LIC existantes. Le code source est disponible à l’adresse suivante : https://github.com/jmliu206/LIC_TCM.