17일 전

프레임 간 주의를 통한 운동 및 외형 추출을 통한 효율적인 영상 프레임 보간

Guozhen Zhang, Yuhan Zhu, Haonan Wang, Youxin Chen, Gangshan Wu, Limin Wang
프레임 간 주의를 통한 운동 및 외형 추출을 통한 효율적인 영상 프레임 보간
초록

비디오 프레임 보간(VFI)에서 프레임 간 운동 정보와 외형 정보를 효과적으로 추출하는 것은 매우 중요하다. 기존의 연구들은 이러한 두 가지 유형의 정보를 혼합 방식으로 추출하거나, 각각의 정보 유형에 대해 별도의 모듈을 설계하는 방식을 사용해 왔으며, 이는 표현의 모호성과 낮은 효율성이라는 문제를 야기하였다. 본 논문에서는 통합적인 연산을 통해 운동 정보와 외형 정보를 명시적으로 추출할 수 있는 새로운 모듈을 제안한다. 구체적으로, 프레임 간 어텐션 내의 정보 처리 과정을 재고하여, 어텐션 맵을 외형 특징 강화와 운동 정보 추출에 동시에 재사용한다. 또한, 효율적인 VFI를 위해 제안한 모듈은 하이브리드 CNN 및 트랜스포머 아키텍처에 자연스럽게 통합될 수 있다. 이 하이브리드 파이프라인은 프레임 간 어텐션의 계산 복잡성을 완화하면서도, 세부적인 저수준 구조 정보를 유지할 수 있다. 실험 결과, 고정된 시간 간격과 임의의 시간 간격 모두에서 다양한 데이터셋에서 최신 기술(SOTA) 수준의 성능을 달성함을 확인하였다. 동시에, 유사한 성능을 보이는 다른 모델들에 비해 더 낮은 계산 부담을 가지는 장점을 갖는다. 소스 코드와 모델은 https://github.com/MCG-NJU/EMA-VFI 에서 공개되어 있다.