11일 전

MLIC++: 학습된 이미지 압축을 위한 선형 복잡도 다중 참조 엔트로피 모델링

Wei Jiang, Jiayu Yang, Yongqi Zhai, Feng Gao, Ronggang Wang
MLIC++: 학습된 이미지 압축을 위한 선형 복잡도 다중 참조 엔트로피 모델링
초록

학습된 이미지 압축에서의 은닉 표현은 채널별, 국소적 공간적, 전역적 공간적 상관관계를 포함하며, 이는 조건부 엔트로피 최소화를 위해 엔트로피 모델이 포착해야 하는 핵심 요소이다. 특히 고해상도 이미지 코딩 환경에서는 기존의 전역적 컨텍스트 모듈의 계산 복잡도로 인해 이러한 다양한 컨텍스트를 단일 엔트로피 모델 내에서 효율적으로 포착하는 것이 도전 과제로 남아 있다. 이 문제를 해결하기 위해 우리는 선형 복잡도 다중 참조 엔트로피 모델(Linear Complexity Multi-Reference Entropy Model, MEM$^{++}$)을 제안한다. 구체적으로, 은닉 표현을 여러 개의 슬라이스로 분할한다. 채널별 컨텍스트 처리를 위해, 이미 압축된 이전 슬라이스들이 특정 슬라이스 압축 시의 컨텍스트로 활용된다. 국소적 컨텍스트를 위해, 이동 윈도우 기반의 체스보드 어텐션 모듈을 도입한다. 이 모듈은 성능을 희생하지 않으면서도 선형 복잡도를 보장한다. 전역적 컨텍스트 처리를 위해, 소프트맥스 연산을 분해함으로써 전역 상관관계를 효과적으로 포착하는 선형 복잡도 어텐션 메커니즘을 제안한다. 이 메커니즘은 이전에 복호화된 슬라이스로부터 암묵적으로 어텐션 맵을 계산할 수 있도록 한다. MEM$^{++}$를 엔트로피 모델로 사용하여 이미지 압축 방법 MLIC$^{++}$를 개발하였다. 광범위한 실험 결과를 통해 MLIC$^{++}$가 최신 기술 수준의 성능을 달성하였으며, 피크 신호 대 잡음비(PSNR) 기준으로 VTM-17.0에 비해 Kodak 데이터셋에서 BD-rate를 13.39% 감소시켰다. 또한 MLIC$^{++}$는 해상도에 따라 선형적인 계산 복잡도와 메모리 사용량을 보이며, 고해상도 이미지 코딩에 매우 적합하다. 코드 및 사전 훈련된 모델은 https://github.com/JiangWeibeta/MLIC에서 제공되며, 훈련용 데이터셋은 https://huggingface.co/datasets/Whiteboat/MLIC-Train-100K에서 확인할 수 있다.

MLIC++: 학습된 이미지 압축을 위한 선형 복잡도 다중 참조 엔트로피 모델링 | 최신 연구 논문 | HyperAI초신경