HyperAIHyperAI
il y a 16 jours

Transformée régionale adaptative avec priorité de segmentation pour la compression d’images

Yuxi Liu, Wenhan Yang, Huihui Bai, Yunchao Wei, Yao Zhao
Transformée régionale adaptative avec priorité de segmentation pour la compression d’images
Résumé

La compression d’images apprise (LIC) a connu des progrès remarquables ces dernières années. Les travaux existants utilisent généralement des modules basés sur les réseaux de neurones convolutifs (CNN) ou sur l’attention auto-associative comme méthodes de transformation pour la compression. Toutefois, aucune recherche antérieure n’a exploré l’idée de transformateurs neuronaux centrés sur des régions spécifiques. À cet effet, nous introduisons des masques de segmentation aveugles par catégorie (c’est-à-dire des masques sémantiques sans étiquettes de catégorie) afin d’extraire des informations contextuelles adaptées aux régions. Le module que nous proposons, le Transformateur Adaptatif par Région, applique des convolutions adaptatives sur différentes régions, guidées par ces masques. Par ailleurs, nous introduisons un module plug-and-play appelé Couche Affine d’Échelle, permettant d’intégrer des contextes riches provenant de diverses régions. Bien que des travaux antérieurs aient déjà impliqué des masques de segmentation comme entrées intermédiaires supplémentaires, notre approche diffère significativement de ces méthodes. Nos avantages résident dans le fait que, pour éviter une surcharge de débit, nous considérons ces masques comme des informations privilégiées, accessibles pendant l’étape d’entraînement du modèle mais non nécessaires lors de l’inférence. À notre connaissance, nous sommes les premiers à exploiter des masques aveugles par catégorie comme informations privilégiées, obtenant ainsi des performances supérieures sur des métriques de fidélité au pixel, telles que le rapport signal-bruit maximal (PSNR). Les résultats expérimentaux démontrent une amélioration par rapport aux méthodes précédemment performantes, avec une réduction d’environ 8,2 % du débit par rapport à VTM-17.0. Le code source est disponible à l’adresse suivante : https://github.com/GityuxiLiu/SegPIC-for-Image-Compression.