초록

외부 시점 영상 합성 기술은 큰 발전을 이뤘지만, 제 1인칭 시점 영상 생성은 여전히 거의 탐색되지 않은 분야이며, 사용자의 신체 운동에 의해 유도되는 카메라 움직임 패턴과 함께 제 1인칭 시점 콘텐츠를 모델링해야 한다. 이 격차를 메우기 위해, 우리는 제 1인칭 영상과 인간 운동을 함께 생성하는 새로운 과제를 제안하며, 이 과제는 두 가지 핵심 도전 과제를 특징으로 한다. 첫째, 시점 정렬(Viewpoint Alignment): 생성된 영상 내 카메라 경로는 인간 운동에서 유도된 머리 경로와 정확히 일치해야 한다. 둘째, 인과적 상호작용(Causal Interplay): 합성된 인간 운동은 인접한 영상 프레임 간의 관측된 시각적 동역학과 인과적으로 일치해야 한다. 이러한 도전 과제를 해결하기 위해, 확산 트랜스포머( diffusion transformer) 아키텍처를 기반으로 한 공동 영상-운동 생성 프레임워크인 EgoTwin을 제안한다. 구체적으로, EgoTwin은 인간 운동을 머리 관절에 고정하는 머리 중심 운동 표현(head-centric motion representation)을 도입하고, 제어 이론(cybernetics)을 영감으로 삼은 상호작용 메커니즘을 도입하여 주의(attention) 연산 내에서 영상과 운동 간의 인과적 상호작용을 명시적으로 모델링한다. 포괄적인 평가를 위해, 동기화된 텍스트-영상-운동 삼중체를 포함하는 대규모 실세계 데이터셋을 구축하고, 영상-운동 일관성을 평가하기 위한 새로운 지표를 설계하였다. 광범위한 실험을 통해 EgoTwin 프레임워크의 효과성이 입증되었다.

소스 PDF