HyperAIHyperAI
منذ 2 أشهر

InternVideo-Ego4D: حزمة من الحلول الفائزة لتحديات Ego4D

Chen, Guo ; Xing, Sen ; Chen, Zhe ; Wang, Yi ; Li, Kunchang ; Li, Yizhuo ; Liu, Yi ; Wang, Jiahao ; Zheng, Yin-Dong ; Huang, Bingkun ; Zhao, Zhiyu ; Pan, Junting ; Huang, Yifei ; Wang, Zun ; Yu, Jiashuo ; He, Yinan ; Zhang, Hongjie ; Lu, Tong ; Wang, Yali ; Wang, Limin ; Qiao, Yu
InternVideo-Ego4D: حزمة من الحلول الفائزة لتحديات Ego4D
الملخص

في هذا التقرير، نقدم حلولنا الفائزة في خمسة مسارات ضمن تحدي Ego4D. نستفيد من نموذجنا الأساسي المطور InternVideo لخمسة مهام في Ego4D، وهي استفسارات اللحظات (Moment Queries)، استفسارات اللغة الطبيعية (Natural Language Queries)، توقع حركة اليد المستقبلية (Future Hand Prediction)، كشف التغييرات الحالة للأجسام (State Change Object Detection)، وتوقع التفاعلات القصيرة المدى مع الأجسام (Short-term Object Interaction Anticipation). يعتبر InternVideo-Ego4D نموذجاً فعالاً لتكيف النماذج الأساسية القوية مع مهام فهم الفيديو الذاتي المركز باستخدام تصاميم بسيطة للرأس. في هذه المهام الخمسة، يتفوق أداء InternVideo-Ego4D بشكل شامل على طرق الأساس والحلول الفائزة في مؤتمر CVPR 2022، مما يدل على قدرة تمثيل قوية لنموذج InternVideo كنموذج أساسي للفيديو. سيتم إصدار شفرتنا المصدرية على الرابط https://github.com/OpenGVLab/ego4d-eccv2022-solutions.

InternVideo-Ego4D: حزمة من الحلول الفائزة لتحديات Ego4D | أحدث الأوراق البحثية | HyperAI