한 달 전

스케일링 자기회귀 비디오 모델

Dirk Weissenborn; Oscar Täckström; Jakob Uszkoreit
스케일링 자기회귀 비디오 모델
초록

비디오의 통계적 복잡성, 고유의 높은 확률성, 그리고 방대한 데이터량 때문에 자연스러운 비디오 생성은 여전히 어려운 과제입니다. 최신 비디오 생성 모델들은 이러한 문제를 해결하기 위해 종종 복잡하고 일반적으로 비디오 전용 신경망 구조, 잠재 변수 모델, 적대적 훈련 및 다양한 다른 방법들을 결합합니다. 그러나 이들 접근 방식이 종종 매우 복잡함에도 불구하고, 좁은 영역 외에서는 고품질의 비디오 연속을 생성하는 데 여전히 부족하며, 종종 충실도에 어려움을 겪습니다. 대조적으로, 우리는 3차원 자기 주의 메커니즘을 기반으로 하는 개념적으로 단순한 자동 회귀 비디오 생성 모델들이 인기 있는 벤치마크 데이터셋에서 여러 지표를 통해 경쟁력 있는 결과를 달성한다는 것을 보여줍니다. 이 모델들은 높은 충실도와 현실감 있는 연속성을 생성합니다. 또한 Kinetics(YouTube 동영상으로 구성된 대규모 행동 인식 데이터셋)에서 우리의 모델들을 훈련시킨 결과를 제시합니다. 이 데이터셋에는 카메라 움직임, 복잡한 객체 상호작용, 다양하고 인간적인 움직임 등의 현상이 포함되어 있습니다. 이러한 현상을 일관되게 모델링하는 것은 아직 해결되지 않았지만, 우리의 결과가 때때로 현실적인 연속성을 포함하고 있어 Kinetics와 같은 비교적 복잡하고 대규모 데이터셋에 대한 추가 연구를 촉진할 수 있기를 바랍니다.

스케일링 자기회귀 비디오 모델 | 최신 연구 논문 | HyperAI초신경