8일 전

다이나믹스 인지 임플리시트 생성적 적대 신경망을 활용한 영상 생성

Sihyun Yu, Jihoon Tack, Sangwoo Mo, Hyunsu Kim, Junho Kim, Jung-Woo Ha, Jinwoo Shin
다이나믹스 인지 임플리시트 생성적 적대 신경망을 활용한 영상 생성
초록

딥러닝 시대에 있어서 고화질 장시간 비디오 생성은 비디오의 시공간적 복잡성과 연속성 때문에 여전히 도전적인 과제로 남아 있다. 기존의 선구적 연구들은 비디오를 RGB 값의 3차원 격자로 표현함으로써 비디오 분포를 모델링하려 했으나, 이는 생성 가능한 비디오의 규모를 제한하고 지속적인 운동 동역학을 간과하는 문제를 야기한다. 본 논문에서는 최근 부상하고 있는 암시적 신경 표현(implicit neural representations, INRs)이라는 패러다임이 연속적인 신호를 파라미터화된 신경망에 인코딩함으로써 이 문제를 효과적으로 완화할 수 있음을 발견하였다. INRs를 비디오에 적용함으로써, 우리는 운동 동역학을 고려한 암시적 생성 적대망(Dynamics-aware Implicit Generative Adversarial Network, DIGAN)이라는 새로운 생성 적대망을 제안한다. 구체적으로, (a) 공간 및 시간 좌표를 별도로 조작함으로써 운동 동역학을 향상시키는 INR 기반 비디오 생성기와, (b) 전체 장시간 프레임 시퀀스를 관찰하지 않고도 비자연스러운 운동을 효율적으로 식별할 수 있는 운동 판별기를 도입하였다. 다양한 데이터셋에서 DIGAN의 우수성을 입증하였으며, 장시간 비디오 합성, 비디오 외삽, 비자기적(비순차적) 비디오 생성 등 다수의 흥미로운 특성을 보였다. 예를 들어, DIGAN은 UCF-101 데이터셋에서 기존 최고 성능 기준(FVD 점수)을 30.7% 향상시켰으며, 128×128 해상도의 128 프레임 비디오를 학습할 수 있어 기존 최고 성능 방법의 48 프레임보다 80 프레임 더 긴 비디오를 처리할 수 있다.

다이나믹스 인지 임플리시트 생성적 적대 신경망을 활용한 영상 생성 | 최신 연구 논문 | HyperAI초신경