MLIC : Modèle d'entropie à références multiples pour la compression d'images apprise

Récemment, la compression d’images fondée sur l’apprentissage a atteint des performances remarquables. Le modèle d’entropie, qui est chargé d’estimer la distribution de la représentation latente, joue un rôle crucial dans l’amélioration de la performance taux-distorsion. Toutefois, la plupart des modèles d’entropie ne captent que des corrélations à une dimension, alors que la représentation latente contient des corrélations inter-canaux, locales spatiales et globales spatiales. Pour résoudre ce problème, nous proposons le modèle d’entropie à références multiples (MEM) ainsi qu’une version améliorée, MEM$^+$. Ces modèles permettent de capturer efficacement les différentes catégories de corrélations présentes dans la représentation latente. Plus précisément, nous divisons d’abord la représentation latente en tranches. Lors du décodage d’une tranche courante, nous utilisons les tranches déjà décodées comme contexte et exploitons la carte d’attention de la tranche précédemment décodée pour prédire les corrélations globales présentes dans la tranche courante. Pour capturer les contextes locaux, nous introduisons deux techniques améliorées de capture du contexte damier, qui évitent toute dégradation des performances. Sur la base de MEM et MEM$^+$, nous proposons deux modèles de compression d’images, MLIC et MLIC$^+$. Des évaluations expérimentales étendues démontrent que nos modèles MLIC et MLIC$^+$ atteignent des performances de pointe, réduisant respectivement le taux BD de $8,05\%$ et $11,39\%$ sur le jeu de données Kodak par rapport à VTM-17.0, mesuré en PSNR. Notre code est disponible à l’adresse suivante : https://github.com/JiangWeibeta/MLIC.