2달 전

반복 비디오 복원 트랜스포머와 안내 변형 주의력

Liang, Jingyun ; Fan, Yuchen ; Xiang, Xiaoyu ; Ranjan, Rakesh ; Ilg, Eddy ; Green, Simon ; Cao, Jiezhang ; Zhang, Kai ; Timofte, Radu ; Van Gool, Luc
반복 비디오 복원 트랜스포머와 안내 변형 주의력
초록

비디오 복원은 여러 저품질 프레임에서 여러 고품질 프레임을 복원하는 것을 목표로 합니다. 기존의 비디오 복원 방법들은 일반적으로 두 가지 극단적인 경우에 속하며, 즉 모든 프레임을 동시에 복원하거나 반복적으로 프레임 하나씩 복원하는 방식입니다. 이들 각각은 서로 다른 장점과 단점을 가지고 있습니다. 전자의 경우 시간적 정보 융합의 장점이 있지만, 큰 모델 크기와 높은 메모리 소모를 겪습니다. 후자는 프레임 간 매개변수 공유로 인해 비교적 작은 모델 크기를 갖지만, 장거리 의존성 모델링 능력과 병렬 처리 가능성이 부족합니다. 본 논문에서는 이러한 두 가지 경우의 장점을 통합하기 위해 반복적인 비디오 복원 트랜스포머인 RVRT(Recurrent Video Restoration Transformer)를 제안합니다. RVRT는 전역적으로 반복적인 구조 내에서 국소적으로 인접한 프레임들을 병렬로 처리하여 모델 크기, 효과성, 효율성 사이에서 좋은 균형을 이루도록 설계되었습니다. 구체적으로, RVRT는 비디오를 여러 클립으로 나누고 이전에 추론된 클립 특성을 이용하여 다음 클립 특성을 추정합니다. 각 클립 내에서는 암시적인 특성 집계를 통해 다른 프레임 특성이 공동으로 업데이트됩니다. 서로 다른 클립 간에는 클립 간 정렬을 위한 안내 변형 주의 메커니즘이 설계되어 전체 추론된 클립에서 여러 관련 위치를 예측하고 주의 메커니즘을 통해 해당 위치들의 특성을 집계합니다. 비디오 초해상화, 블러 제거, 노이즈 제거 등 다양한 실험 결과가 보여주듯 제안된 RVRT는 균형 잡힌 모델 크기, 테스트 메모리 및 실행 시간을 유지하면서 벤치마크 데이터셋에서 최신 수준의 성능을 달성하였습니다.

반복 비디오 복원 트랜스포머와 안내 변형 주의력 | 최신 연구 논문 | HyperAI초신경