
초록
학습 기반 이미지 압축(LIC) 기법은 기존의 전통적 이미지 압축 표준에 비해 뛰어난 성과와 우수한 비트 전송률-왜곡 성능을 보여주고 있다. 기존의 대부분의 LIC 기법은 컨볼루션 신경망(CNN) 기반 또는 트랜스포머 기반으로 구성되어 있으며, 각각 고유한 장점을 지닌다. 이러한 두 기법의 장점을 동시에 활용하는 것은 매우 유망한 연구 방향이지만, 다음과 같은 두 가지 도전 과제가 존재한다: 1) 두 기법을 효과적으로 융합하는 방법은 무엇인가? 2) 적절한 계산 복잡도 내에서 더 높은 성능을 달성하는 방법은 무엇인가? 본 논문에서는 CNN의 국소적 모델링 능력과 트랜스포머의 비국소적 모델링 능력을 결합하기 위해, 복잡도를 조절 가능한 효율적인 병렬형 트랜스포머-CNN 혼합(TCM) 블록을 제안한다. 또한 최근의 엔트로피 추정 모델과 어텐션 모듈의 발전을 영감으로 받아, 채널 압축을 활용한 파라미터 효율적인 스위н-트랜스포머 기반 어텐션(SWAtten) 모듈을 도입한 채널별 엔트로피 모델을 제안한다. 실험 결과, 제안한 방법은 코닥(Kodak), 테크닉(Tecnick), CLIC 프로페셔널 검증 데이터셋 등 세 가지 서로 다른 해상도의 데이터셋에서 기존의 LIC 기법들에 비해 최신 기술 수준의 비트 전송률-왜곡 성능을 달성함을 입증하였다. 코드는 다음 주소에서 확인할 수 있다: https://github.com/jmliu206/LIC_TCM.