HyperAIHyperAI

Command Palette

Search for a command to run...

EgoVideo: استكشاف نموذج الأساس المركزي الذاتي والتكييف اللاحق

الملخص

في هذا التقرير، نقدم حلولنا لتحديات EgoVis في مؤتمر CVPR 2024، والتي تشمل خمسة مسارات في تحدي Ego4D وثلاثة مسارات في تحدي EPIC-Kitchens. بناءً على نموذج الفيديو-اللغة ذو البرجين ومستخدمين بيانات الفيديو الذاتية التي تم تنظيمها بدقة، نقدم نموذجًا أساسيًا جديدًا يُسمى EgoVideo. هذا النموذج مصمم خصيصًا للتعامل مع الخصائص الفريدة للفيديوهات الذاتية ويوفر دعمًا قويًا لتقديماتنا في المسابقة. في تحديات Ego4D، نواجه مجموعة من المهام تشمل الاستفسارات اللغوية الطبيعية (Natural Language Queries)، تثبيت الخطوات (Step Grounding)، استفسارات اللحظات (Moment Queries)، توقع التفاعلات القصيرة الأجل مع الأشياء (Short-term Object Interaction Anticipation) وتوقع الأنشطة طويلة الأجل (Long-term Action Anticipation). بالإضافة إلى ذلك، نشارك أيضًا في تحدي EPIC-Kitchens، حيث نعمل على مسارات التعرف على الأنشطة (Action Recognition)، استرجاع الحالات المتعددة (Multiple Instance Retrieval) والتكيف بين المجالات للتعرف على الأنشطة (Domain Adaptation for Action Recognition). من خلال تكييف EgoVideo لهذه المهام المتنوعة، نظهر مرونته وفعاليته في سيناريوهات مختلفة لتحليل الفيديوهات الذاتية، مما يدل على قدرة التمثيل القوية التي يتمتع بها EgoVideo كنموذج أساسي ذاتي. يمكن الوصول إلى قاعدة رمزنا وموديلاتنا المدربة مسبقًا بشكل عام عبر الرابط: https://github.com/OpenGVLab/EgoVideo.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp