HyperAIHyperAI

Command Palette

Search for a command to run...

에고트윈: 제1인칭에서의 몸과 시점의 꿈

Jingqiao Xiu Fangzhou Hong Yicong Li Mengze Li Wentao Wang Sirui Han Liang Pan Ziwei Liu

초록

외부 시점 영상 합성 기술은 큰 발전을 이뤘지만, 제 1인칭 시점 영상 생성은 여전히 거의 탐색되지 않은 분야이며, 사용자의 신체 운동에 의해 유도되는 카메라 움직임 패턴과 함께 제 1인칭 시점 콘텐츠를 모델링해야 한다. 이 격차를 메우기 위해, 우리는 제 1인칭 영상과 인간 운동을 함께 생성하는 새로운 과제를 제안하며, 이 과제는 두 가지 핵심 도전 과제를 특징으로 한다. 첫째, 시점 정렬(Viewpoint Alignment): 생성된 영상 내 카메라 경로는 인간 운동에서 유도된 머리 경로와 정확히 일치해야 한다. 둘째, 인과적 상호작용(Causal Interplay): 합성된 인간 운동은 인접한 영상 프레임 간의 관측된 시각적 동역학과 인과적으로 일치해야 한다. 이러한 도전 과제를 해결하기 위해, 확산 트랜스포머( diffusion transformer) 아키텍처를 기반으로 한 공동 영상-운동 생성 프레임워크인 EgoTwin을 제안한다. 구체적으로, EgoTwin은 인간 운동을 머리 관절에 고정하는 머리 중심 운동 표현(head-centric motion representation)을 도입하고, 제어 이론(cybernetics)을 영감으로 삼은 상호작용 메커니즘을 도입하여 주의(attention) 연산 내에서 영상과 운동 간의 인과적 상호작용을 명시적으로 모델링한다. 포괄적인 평가를 위해, 동기화된 텍스트-영상-운동 삼중체를 포함하는 대규모 실세계 데이터셋을 구축하고, 영상-운동 일관성을 평가하기 위한 새로운 지표를 설계하였다. 광범위한 실험을 통해 EgoTwin 프레임워크의 효과성이 입증되었다.


AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩
바로 사용 가능한 GPU
최적의 가격

HyperAI Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
에고트윈: 제1인칭에서의 몸과 시점의 꿈 | 문서 | HyperAI초신경