HyperAIHyperAI
il y a 17 jours

MLIC++ : Modélisation linéaire de l'entropie à plusieurs références pour la compression d'images apprise

Wei Jiang, Jiayu Yang, Yongqi Zhai, Feng Gao, Ronggang Wang
MLIC++ : Modélisation linéaire de l'entropie à plusieurs références pour la compression d'images apprise
Résumé

La représentation latente dans le codage d’image appris englobe des corrélations canal-par-canal, spatiales locales et spatiales globales, qui sont essentielles pour le modèle d’entropie afin de capturer efficacement les contextes nécessaires à la minimisation de l’entropie conditionnelle. L’acquisition efficace de ces contextes au sein d’un seul modèle d’entropie, notamment dans le codage d’images à haute résolution, soulève un défi en raison de la complexité computationnelle des modules de contexte global existants. Pour relever ce défi, nous proposons un modèle d’entropie à complexité linéaire à multiples références (MEM$^{++}$). Plus précisément, la représentation latente est divisée en plusieurs tranches. Pour les contextes canal-par-canal, les tranches précédemment compressées servent de contexte pour la compression d’une tranche donnée. Pour les contextes locaux, nous introduisons un module d’attention en damier basé sur des fenêtres décalées, qui garantit une complexité linéaire sans compromettre les performances. Pour les contextes globaux, nous proposons un mécanisme d’attention à complexité linéaire, qui capture les corrélations globales en décomposant l’opération softmax, permettant ainsi un calcul implicite des cartes d’attention à partir des tranches précédemment décodées. En utilisant MEM$^{++}$ comme modèle d’entropie, nous développons une méthode de codage d’image appelée MLIC$^{++}$. Des résultats expérimentaux étendus montrent que MLIC$^{++}$ atteint des performances de pointe, réduisant le taux BD de $13,39\%$ sur le jeu de données Kodak par rapport à VTM-17.0 en termes de rapport signal-bruit pic (PSNR). En outre, MLIC$^{++}$ présente une complexité computationnelle et une consommation mémoire linéaires par rapport à la résolution, ce qui la rend particulièrement adaptée au codage d’images à haute résolution. Le code source et les modèles pré-entraînés sont disponibles à l’adresse https://github.com/JiangWeibeta/MLIC. Le jeu de données d’entraînement est accessible à l’adresse https://huggingface.co/datasets/Whiteboat/MLIC-Train-100K.