9일 전

CCVS: 컨텍스트 인지형 조절 가능 영상 합성

Guillaume Le Moing, Jean Ponce, Cordelia Schmid
CCVS: 컨텍스트 인지형 조절 가능 영상 합성
초록

이 발표에서는 기존 영상을 기반으로 새로운 영상 클립을 합성하기 위한 자기지도 학습 방식을 소개하며, 공간 해상도와 현실감을 향상시키기 위한 몇 가지 새로운 핵심 요소를 제안한다. 합성 과정은 시간적 연속성을 유지하기 위해 맥락 정보를 조건으로 삼고, 세부적인 제어를 위해 부가 정보를 활용한다. 예측 모델은 인코더-디코더 구조의 잠재 공간에서 미래 프레임을 예측하기 위한 이중 자기회귀적 구조를 가지며, 이미지 공간에서 맥락 정보를 갱신하는 데도 사용된다. 이 맥락 정보는 학습 가능한 광류(옵티컬 플로우) 모듈을 통해 공간-시간 일관성을 강제하는 데에도 활용된다. 또한, 외관 및 시간 영역에서 오토인코더에 대해 적대적 학습을 적용함으로써 출력의 현실감을 더욱 향상시킨다. 잠재 공간에서 미래 프레임을 예측하는 트랜스포머 전후에 삽입된 양자화기(quantizer)와 그 역함수는, 다중 모달성 부가 정보(예: 몇 장의 샘플 프레임, 오디오 트랙, 이미지 공간 내의 경로 등)를 간단한 메커니즘으로 처리할 수 있도록 유연성을 제공하며, 미래의 본질적인 불확실성을 반영하기 위해 다수의 예측을 허용함으로써 합성 과정을 보다 효과적으로 제어할 수 있다. 제안된 방법의 구현을 통한 실험 결과는 다양한 작업과 표준 벤치마크에서 매우 우수한 정성적 및 정량적 성능을 보였다.

CCVS: 컨텍스트 인지형 조절 가능 영상 합성 | 최신 연구 논문 | HyperAI초신경