HyperAIHyperAI

Command Palette

Search for a command to run...

الهدف: تكييف نماذج الصور لتقدير فعّال للإجراءات في الفيديو

Taojiannan Yang Yi Zhu Yusheng Xie Aston Zhang Chen Chen Mu Li

الملخص

النماذج الحديثة القائمة على المحولات البصرية للفيديوهات تتبع في الغالب نموذج "التدريب المسبق على الصور ثم التحسين الدقيق" (image pre-training then fine-tuning)، وقد حققت نجاحًا كبيرًا في العديد من معايير الفيديو. ومع ذلك، فإن التحسين الدقيق الكامل لنموذج فيديو كهذا قد يكون مكلفًا من الناحية الحسابية وغير ضروري، بالنظر إلى أن النماذج المُدرّبة مسبقًا على الصور أظهرت قدرة استيعابية استثنائية. في هذه الدراسة، نقترح طريقة جديدة لتعديل النماذج المُدرّبة مسبقًا على الصور (Adapt pre-trained Image Models - AIM) بهدف فهم الفيديو بكفاءة. من خلال تجميد النموذج المُدرّب مسبقًا على الصور وإضافة عدد قليل من "الملحقات الخفيفة" (lightweight Adapters)، نُقدّم تكيّفًا مكانيًا، وتكيّفًا زمنيًا، وتكيّفًا مشتركًا (joint adaptation) لتمكين النموذج من اكتساب قدرة تفكير فضائي-زمني تدريجيًا. نُظهر أن النموذج المقترح AIM يمكنه تحقيق أداءً تنافسيًا أو حتى أفضل من النماذج السابقة، مع عدد محدود جدًا من المعلمات القابلة للتعديل، على أربع معايير لتمييز أفعال الفيديو. وبفضل بساطة هذه الطريقة، فإنها قابلة للتطبيق بشكل عام على مختلف النماذج المُدرّبة مسبقًا على الصور، مما يفتح الباب أمام استغلال نماذج أساسية للصور أكثر قوة في المستقبل. يمكن زيارة صفحة المشروع عبر الرابط: \url{https://adapt-image-models.github.io/}.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
الهدف: تكييف نماذج الصور لتقدير فعّال للإجراءات في الفيديو | مستندات | HyperAI