16일 전

세부 사항이 핵심이다: 이미지 압축을 위한 윈도우 기반 어텐션

Renjie Zou, Chunfeng Song, Zhaoxiang Zhang
세부 사항이 핵심이다: 이미지 압축을 위한 윈도우 기반 어텐션
초록

학습 기반 이미지 압축 기법은 기존의 전통적인 이미지 압축 표준에 비해 우수한 비율-왜곡 성능을 보여주었다. 현재까지 개발된 대부분의 학습 기반 이미지 압축 모델은 합성곱 신경망(Convolutional Neural Networks, CNN)을 기반으로 하고 있다. 비록 이러한 모델들이 중요한 기여를 했지만, CNN 기반 모델의 주요한 단점은 국소적 중복성, 특히 반복되지 않는 텍스처를 효과적으로 포착할 수 있도록 구조가 설계되어 있지 않다는 점이다. 이는 재구성 품질에 심각한 영향을 미친다. 따라서 학습 기반 이미지 압축의 핵심 과제는 글로벌 구조와 국소적 텍스처를 모두 효과적으로 활용하는 것이다. 최근 비전 트랜스포머(Vision Transformer, ViT) 및 스위н 트랜스포머(Swin Transformer)의 발전에 영감을 받아, 국소 인지 주의 메커니즘(local-aware attention mechanism)과 글로벌 관련 특징 학습(global-related feature learning)을 결합하면 이미지 압축에서 기대하는 성능을 달성할 수 있음을 확인하였다. 본 논문에서는 먼저 국소 특징 학습에 활용 가능한 다양한 주의 메커니즘의 영향을 광범위하게 분석한 후, 더 간단하면서도 효과적인 윈도우 기반 국소 주의 블록(window-based local attention block)을 제안한다. 제안된 윈도우 기반 주의 메커니즘은 매우 유연하여 CNN 및 트랜스포머 모델에 즉시 삽입하여 성능을 향상시키는 플러그 앤 플레이(Plug-and-Play) 구성 요소로 활용할 수 있다. 또한, 다운샘플링 인코더와 업샘플링 디코더에 절대 트랜스포머 블록(absolute transformer blocks)을 사용하는 새로운 대칭형 트랜스포머(Symmetrical TransFormer, STF) 프레임워크를 제안한다. 광범위한 실험 평가를 통해 제안된 방법이 효과적임을 입증하였으며, 최신 기술 대비 우수한 성능을 보였다. 코드는 공개적으로 제공되며, 다음 주소에서 확인할 수 있다: https://github.com/Googolxx/STF.

세부 사항이 핵심이다: 이미지 압축을 위한 윈도우 기반 어텐션 | 최신 연구 논문 | HyperAI초신경