
초록
비디오 프레임 보간(VFI) 분야에서 기존의 딥러닝 기반 접근법은 종종 참조 중간 프레임(GT, Ground Truth)에 근접하게 중간 프레임을 재구성하는 데 크게 의존하며, 이는 주어진 인접 프레임들만으로는 운동 방향이 유일하지 않을 수 있음에도 불구하고 이를 무시하게 된다. 그 결과 이러한 방법들은 명확도가 부족한 평균화된 해를 생성하는 경향이 있다. 이 문제를 완화하기 위해, 중간 프레임을 참조값(GT)에 가능한 한 가까이 재구성해야 한다는 요구를 완화하는 방식을 제안한다. 이를 위해, 보간된 콘텐츠가 주어진 프레임들 내 해당하는 부분과 유사한 구조를 유지해야 한다는 가정 하에 텍스처 일관성 손실(TCL)을 도입한다. 이 제약 조건을 만족하는 예측값은 참조값과 다를 수 있지만, 오히려 장려된다. 복잡한 기법 없이도, 본 연구에서 제안하는 플러그 앤 플레이형 TCL은 기존 VFI 프레임워크의 성능을 향상시킬 수 있다. 반면 기존 방법들은 보다 정확한 이미지/특징 왜곡을 위해 일반적으로 비용 볼륨(cost volume) 또는 상관 맵(correlation map)을 사용한다. 그러나 이 방법은 픽셀 수를 N으로 나타낼 때 O(N²)의 계산 복잡도를 가지며, 고해상도 케이스에서는 실용적이지 못하다. 본 연구에서는 다중 스케일 정보를 효과적으로 활용하는 간단하고 효율적인(O(N)) 그러나 강력한 크로스 스케일 피라미드 정렬(CSPA) 모듈을 설계하였다. 광범위한 실험을 통해 제안된 전략의 효율성과 효과성이 입증되었다.