14일 전

마스크된 인터 및 인트라 프레임 어텐션을 갖춘 비디오 슈퍼해상도 트랜스포머

Xingyu Zhou, Leheng Zhang, Xiaorui Zhao, Keze Wang, Leida Li, Shuhang Gu
마스크된 인터 및 인트라 프레임 어텐션을 갖춘 비디오 슈퍼해상도 트랜스포머
초록

최근에 비전 트랜스포머(Vision Transformer)는 저해상도 영상 시퀀스의 누락된 세부 정보를 복원하는 작업, 즉 영상 초해상도화(video super-resolution, VSR)에서 큰 성공을 거두었다. 비록 트랜스포머 기반 VSR 모델이 높은 정확도를 보이고 있지만, 높은 계산 부담과 큰 메모리 사용량으로 인해 제한된 리소스를 가진 장치에의 배포가 어려운 문제가 존재한다. 본 논문에서는 이러한 문제를 해결하기 위해 새로운 특징 수준의 마스킹 처리 프레임워크인 MIA-VSR(Masked Intra- and Inter-frame Attention for VSR)를 제안한다. MIA-VSR의 핵심은 인접 프레임 간의 특징 수준에서의 시간적 연속성을 활용하여 중복 계산을 줄이고, 이미 개선된 초해상도(SR) 특징들을 보다 합리적으로 활용하는 것이다. 구체적으로, 과거 특징과 입력 특징의 역할을 고려한 내부 프레임 및 외부 프레임 주의(attention) 블록을 제안하며, 이는 이전에 개선된 특징만을 활용하여 보완 정보를 제공한다. 또한, 인접 프레임 간의 특징 유사도를 기반으로 중요하지 않은 계산을 건너뛸 수 있도록 적응형 블록 단위 마스크 예측 모듈을 개발하였다. 제안된 방법의 기여도를 검증하기 위해 철저한 아블레이션 연구를 수행하였으며, 최근의 최신 VSR 기법들과의 비교를 통해 성능을 평가하였다. 실험 결과, MIA-VSR는 PSNR 정확도를 희생하지 않으면서도 기존 최고 수준의 방법들에 비해 메모리 사용량과 계산 효율성을 개선함을 입증하였다. 코드는 https://github.com/LabShuHangGU/MIA-VSR 에 공개되어 있다.

마스크된 인터 및 인트라 프레임 어텐션을 갖춘 비디오 슈퍼해상도 트랜스포머 | 최신 연구 논문 | HyperAI초신경