17일 전

고품질 비디오 프레임 보간을 위한 운동 모호성 및 정렬 탐색

Kun Zhou, Wenbo Li, Xiaoguang Han, Jiangbo Lu
고품질 비디오 프레임 보간을 위한 운동 모호성 및 정렬 탐색
초록

비디오 프레임 보간(VFI) 분야에서 기존의 딥러닝 기반 접근법은 종종 참조 중간 프레임(GT, Ground Truth)에 근접하게 중간 프레임을 재구성하는 데 크게 의존하며, 이는 주어진 인접 프레임들만으로는 운동 방향이 유일하지 않을 수 있음에도 불구하고 이를 무시하게 된다. 그 결과 이러한 방법들은 명확도가 부족한 평균화된 해를 생성하는 경향이 있다. 이 문제를 완화하기 위해, 중간 프레임을 참조값(GT)에 가능한 한 가까이 재구성해야 한다는 요구를 완화하는 방식을 제안한다. 이를 위해, 보간된 콘텐츠가 주어진 프레임들 내 해당하는 부분과 유사한 구조를 유지해야 한다는 가정 하에 텍스처 일관성 손실(TCL)을 도입한다. 이 제약 조건을 만족하는 예측값은 참조값과 다를 수 있지만, 오히려 장려된다. 복잡한 기법 없이도, 본 연구에서 제안하는 플러그 앤 플레이형 TCL은 기존 VFI 프레임워크의 성능을 향상시킬 수 있다. 반면 기존 방법들은 보다 정확한 이미지/특징 왜곡을 위해 일반적으로 비용 볼륨(cost volume) 또는 상관 맵(correlation map)을 사용한다. 그러나 이 방법은 픽셀 수를 N으로 나타낼 때 O(N²)의 계산 복잡도를 가지며, 고해상도 케이스에서는 실용적이지 못하다. 본 연구에서는 다중 스케일 정보를 효과적으로 활용하는 간단하고 효율적인(O(N)) 그러나 강력한 크로스 스케일 피라미드 정렬(CSPA) 모듈을 설계하였다. 광범위한 실험을 통해 제안된 전략의 효율성과 효과성이 입증되었다.

고품질 비디오 프레임 보간을 위한 운동 모호성 및 정렬 탐색 | 최신 연구 논문 | HyperAI초신경