2달 전
EgoExoLearn: 실제 세계의 절차적 활동을 연결하기 위한 비동기 자기중심 및 타자중심 시점 데이터셋
Huang, Yifei ; Chen, Guo ; Xu, Jilan ; Zhang, Mingfang ; Yang, Lijin ; Pei, Baoqi ; Zhang, Hongjie ; Dong, Lu ; Wang, Yali ; Wang, Limin ; Qiao, Yu

초록
타인의 활동을 자신의 시점으로 매핑하는 것은 매우 어린 나이부터 인간이 갖추고 있는 기본적인 능력 중 하나입니다. 이 인간 능력을 이해하기 위한 한 걸음으로, 우리는 EgoExoLearn을 소개합니다. EgoExoLearn은 대규모 데이터셋으로, 개인들이 시연 영상의 안내에 따라 작업을 수행하면서 주관적 시점의 영상을 기록하는 과정을 모방합니다. 일상 지원과 전문적 지원의 잠재적 응용 분야에 초점을 맞추어, EgoExoLearn은 일상 생활 상황과 전문 연구실에서 촬영된 120시간에 걸친 주관적 시점 및 시연 영상 데이터를 포함하고 있습니다. 또한 고품질의 시선 데이터를 기록하고, 세부적인 다중모달 주석을 제공하여, 서로 다른 시점에서 비동기적으로 이루어지는 절차적 행동을 연결하는 인간 능력을 모델링할 수 있는 실험 환경을 구축합니다. 이를 위해 우리는 주요 벤치마크인 교차시점 연관성, 교차시점 행동 계획, 그리고 교차시점 참조 기술 평가를 제시하며, 상세한 분석도 함께 제공합니다. 우리는 EgoExoLearn이 서로 다른 시점 간의 행동을 연결하는 중요한 자원으로 활용되어, 실제 세계에서 인간을 관찰함으로써 원활하게 학습할 수 있는 AI 에이전트 개발에 길을 닦기를 기대합니다. 코드와 데이터는 다음 링크에서 확인할 수 있습니다: https://github.com/OpenGVLab/EgoExoLearn