EgoVideo: استكشاف نموذج الأساس المركزي الذاتي والتكييف اللاحق

في هذا التقرير، نقدم حلولنا لتحديات EgoVis في مؤتمر CVPR 2024، والتي تشمل خمسة مسارات في تحدي Ego4D وثلاثة مسارات في تحدي EPIC-Kitchens. بناءً على نموذج الفيديو-اللغة ذو البرجين ومستخدمين بيانات الفيديو الذاتية التي تم تنظيمها بدقة، نقدم نموذجًا أساسيًا جديدًا يُسمى EgoVideo. هذا النموذج مصمم خصيصًا للتعامل مع الخصائص الفريدة للفيديوهات الذاتية ويوفر دعمًا قويًا لتقديماتنا في المسابقة. في تحديات Ego4D، نواجه مجموعة من المهام تشمل الاستفسارات اللغوية الطبيعية (Natural Language Queries)، تثبيت الخطوات (Step Grounding)، استفسارات اللحظات (Moment Queries)، توقع التفاعلات القصيرة الأجل مع الأشياء (Short-term Object Interaction Anticipation) وتوقع الأنشطة طويلة الأجل (Long-term Action Anticipation). بالإضافة إلى ذلك، نشارك أيضًا في تحدي EPIC-Kitchens، حيث نعمل على مسارات التعرف على الأنشطة (Action Recognition)، استرجاع الحالات المتعددة (Multiple Instance Retrieval) والتكيف بين المجالات للتعرف على الأنشطة (Domain Adaptation for Action Recognition). من خلال تكييف EgoVideo لهذه المهام المتنوعة، نظهر مرونته وفعاليته في سيناريوهات مختلفة لتحليل الفيديوهات الذاتية، مما يدل على قدرة التمثيل القوية التي يتمتع بها EgoVideo كنموذج أساسي ذاتي. يمكن الوصول إلى قاعدة رمزنا وموديلاتنا المدربة مسبقًا بشكل عام عبر الرابط: https://github.com/OpenGVLab/EgoVideo.