
비디오 슈퍼 리졸루션(VSR)은 저해상도(LR) 프레임의 시퀀스에서 고해상도(HR) 프레임 시퀀스를 복원하는 것을 목표로 합니다. 일부 진전이 이루어졌음에도 불구하고, 전체 비디오 시퀀스에서 시간적 의존성을 효과적으로 활용하는 데는 큰 도전 과제가 남아 있습니다. 기존 접근 방식들은 보통 제한된 인접 프레임(예를 들어, 5개 또는 7개 프레임)을 정렬하고 집계하여, 이러한 방법들이 만족스러운 결과를 내지 못하게 합니다. 본 논문에서는 비디오에서 효과적인 공간-시간 학습을 가능하게 하는 한 걸음을 더 나갑니다. 우리는 새로운 경로 인식 트랜스포머(TTVSR)를 제안합니다. 특히, 비디오 프레임들을 연속적인 시각 토큰으로 구성된 여러 개의 사전 정렬된 경로로 표현합니다. 쿼리 토큰에 대해, 공간-시간 경로 상의 관련 시각 토큰들에 대해서만 자기 주의(self-attention)를 학습합니다. 일반적인 비전 트랜스포머와 비교할 때, 이러한 설계는 계산 비용을大幅减少,并使变压器能够建模长距离特征。我们进一步提出了一种跨尺度特征标记模块,以克服在长距离视频中经常出现的尺度变化问题。实验结果通过四个广泛使用的视频超分辨率基准中的大量定量和定性评估,证明了所提出的TTVSR优于现有最先进模型。代码和预训练模型可以在https://github.com/researchmm/TTVSR下载。注:由于最后一段的中文术语与前文英文术语混用,我将其中的中文部分翻译为韩文,以保持一致性。以下是修正后的翻译:특히, 쿼리 토큰에 대해, 공간-시간 경로 상의 관련 시각 토큰들에 대해서만 자기 주의(self-attention)를 학습합니다. 일반적인 비전 트랜스포머와 비교할 때, 이러한 설계는 계산 비용을 크게 줄이고 트랜스포머가 장거리 특성을 모델링할 수 있도록 합니다. 또한, 장거리 비디오에서 자주 발생하는 스케일 변화 문제를 해결하기 위해 크로스 스케일 특성 토크나이제이션 모듈을 제안합니다. 실험 결과는 널리 사용되는 네 가지 비디오 슈퍼 리졸루션 벤치마크에서 광범위한 정량적 및 정성적 평가를 통해 제안된 TTVSR이 최신 모델보다 우수함을 입증하였습니다. 코드와 사전 학습된 모델은 https://github.com/researchmm/TTVSR에서 다운로드할 수 있습니다.