2달 전
InternVideo-Ego4D: Ego4D 도전 과제를 위한 우승 솔루션 모음집
Chen, Guo ; Xing, Sen ; Chen, Zhe ; Wang, Yi ; Li, Kunchang ; Li, Yizhuo ; Liu, Yi ; Wang, Jiahao ; Zheng, Yin-Dong ; Huang, Bingkun ; Zhao, Zhiyu ; Pan, Junting ; Huang, Yifei ; Wang, Zun ; Yu, Jiashuo ; He, Yinan ; Zhang, Hongjie ; Lu, Tong ; Wang, Yali ; Wang, Limin ; Qiao, Yu

초록
본 보고서에서는 Ego4D 챌린지의 다섯 개 트랙에 대한 우승 솔루션을 제시합니다. 우리는 개발한 비디오 기반 모델인 InternVideo를 Moment Queries, Natural Language Queries, Future Hand Prediction, State Change Object Detection, 그리고 Short-term Object Interaction Anticipation 등 다섯 가지 Ego4D 작업에 활용하였습니다. InternVideo-Ego4D는 간단한 헤드 설계를 통해 강력한 기반 모델을 1인칭 비디오 이해 작업에 효과적으로 적응시키는 패러다임입니다. 이 다섯 가지 작업에서 InternVideo-Ego4D의 성능은 기준 방법과 CVPR2022 우승자들을 전반적으로 능가하며, InternVideo가 비디오 기반 모델로서 강력한 표현 능력을 갖추고 있음을 입증합니다. 우리의 코드는 https://github.com/OpenGVLab/ego4d-eccv2022-solutions 에 공개될 예정입니다.