14일 전

비디오 슈퍼리졸루션 트랜스포머에서의 어라이어먼트 재고

Shuwei Shi, Jinjin Gu, Liangbin Xie, Xintao Wang, Yujiu Yang, Chao Dong
비디오 슈퍼리졸루션 트랜스포머에서의 어라이어먼트 재고
초록

이웃 프레임 간의 정렬은 영상 초해상도 재구성(VSR)에서 필수적인 작업으로 간주된다. 최신 VSR 트랜스포머를 포함한 고급 VSR 모델들은 일반적으로 잘 설계된 정렬 모듈을 내장하고 있다. 그러나 자기주의(self-attention) 메커니즘의 발전은 이러한 일반적인 인식을 위반할 수 있다. 본 논문에서는 VSR 트랜스포머에서 정렬의 역할을 재고하고, 직관에 어긋나는 몇 가지 관찰을 제시한다. 실험 결과에 따르면: (i) VSR 트랜스포머는 정렬되지 않은 영상에서 다중 프레임 정보를 직접 활용할 수 있으며, (ii) 기존의 정렬 방법은 때때로 VSR 트랜스포머의 성능에 해로울 수 있다. 이러한 관찰은 정렬 모듈을 제거하고 더 큰 어텐션 창을 사용함으로써 VSR 트랜스포머의 성능을 추가로 향상시킬 수 있음을 시사한다. 그러나 이러한 설계는 계산 부담을 급격히 증가시키며, 큰 움직임을 다루는 데에는 적합하지 않다. 따라서 우리는 픽셀이 아닌 이미지 패치를 정렬하는 새로운 효율적인 정렬 방법인 패치 정렬(patch alignment)을 제안한다. 패치 정렬을 탑재한 VSR 트랜스포머는 다양한 벤치마크에서 최고 수준의 성능을 보여주었다. 본 연구는 VSR에서 다중 프레임 정보가 어떻게 활용되는지, 그리고 다양한 네트워크 및 데이터셋에 적합한 정렬 방법을 어떻게 선택할 수 있는지에 대한 귀중한 통찰을 제공한다. 코드와 모델은 https://github.com/XPixelGroup/RethinkVSRAlignment 에 공개될 예정이다.

비디오 슈퍼리졸루션 트랜스포머에서의 어라이어먼트 재고 | 최신 연구 논문 | HyperAI초신경