HyperAIHyperAI
منذ 17 أيام

الهدف: تكييف نماذج الصور لتقدير فعّال للإجراءات في الفيديو

Taojiannan Yang, Yi Zhu, Yusheng Xie, Aston Zhang, Chen Chen, Mu Li
الهدف: تكييف نماذج الصور لتقدير فعّال للإجراءات في الفيديو
الملخص

النماذج الحديثة القائمة على المحولات البصرية للفيديوهات تتبع في الغالب نموذج "التدريب المسبق على الصور ثم التحسين الدقيق" (image pre-training then fine-tuning)، وقد حققت نجاحًا كبيرًا في العديد من معايير الفيديو. ومع ذلك، فإن التحسين الدقيق الكامل لنموذج فيديو كهذا قد يكون مكلفًا من الناحية الحسابية وغير ضروري، بالنظر إلى أن النماذج المُدرّبة مسبقًا على الصور أظهرت قدرة استيعابية استثنائية. في هذه الدراسة، نقترح طريقة جديدة لتعديل النماذج المُدرّبة مسبقًا على الصور (Adapt pre-trained Image Models - AIM) بهدف فهم الفيديو بكفاءة. من خلال تجميد النموذج المُدرّب مسبقًا على الصور وإضافة عدد قليل من "الملحقات الخفيفة" (lightweight Adapters)، نُقدّم تكيّفًا مكانيًا، وتكيّفًا زمنيًا، وتكيّفًا مشتركًا (joint adaptation) لتمكين النموذج من اكتساب قدرة تفكير فضائي-زمني تدريجيًا. نُظهر أن النموذج المقترح AIM يمكنه تحقيق أداءً تنافسيًا أو حتى أفضل من النماذج السابقة، مع عدد محدود جدًا من المعلمات القابلة للتعديل، على أربع معايير لتمييز أفعال الفيديو. وبفضل بساطة هذه الطريقة، فإنها قابلة للتطبيق بشكل عام على مختلف النماذج المُدرّبة مسبقًا على الصور، مما يفتح الباب أمام استغلال نماذج أساسية للصور أكثر قوة في المستقبل. يمكن زيارة صفحة المشروع عبر الرابط: \url{https://adapt-image-models.github.io/}.

الهدف: تكييف نماذج الصور لتقدير فعّال للإجراءات في الفيديو | أحدث الأوراق البحثية | HyperAI