Command Palette
Search for a command to run...
الهدف: تكييف نماذج الصور لتقدير فعّال للإجراءات في الفيديو
الهدف: تكييف نماذج الصور لتقدير فعّال للإجراءات في الفيديو
Taojiannan Yang Yi Zhu Yusheng Xie Aston Zhang Chen Chen Mu Li
الملخص
النماذج الحديثة القائمة على المحولات البصرية للفيديوهات تتبع في الغالب نموذج "التدريب المسبق على الصور ثم التحسين الدقيق" (image pre-training then fine-tuning)، وقد حققت نجاحًا كبيرًا في العديد من معايير الفيديو. ومع ذلك، فإن التحسين الدقيق الكامل لنموذج فيديو كهذا قد يكون مكلفًا من الناحية الحسابية وغير ضروري، بالنظر إلى أن النماذج المُدرّبة مسبقًا على الصور أظهرت قدرة استيعابية استثنائية. في هذه الدراسة، نقترح طريقة جديدة لتعديل النماذج المُدرّبة مسبقًا على الصور (Adapt pre-trained Image Models - AIM) بهدف فهم الفيديو بكفاءة. من خلال تجميد النموذج المُدرّب مسبقًا على الصور وإضافة عدد قليل من "الملحقات الخفيفة" (lightweight Adapters)، نُقدّم تكيّفًا مكانيًا، وتكيّفًا زمنيًا، وتكيّفًا مشتركًا (joint adaptation) لتمكين النموذج من اكتساب قدرة تفكير فضائي-زمني تدريجيًا. نُظهر أن النموذج المقترح AIM يمكنه تحقيق أداءً تنافسيًا أو حتى أفضل من النماذج السابقة، مع عدد محدود جدًا من المعلمات القابلة للتعديل، على أربع معايير لتمييز أفعال الفيديو. وبفضل بساطة هذه الطريقة، فإنها قابلة للتطبيق بشكل عام على مختلف النماذج المُدرّبة مسبقًا على الصور، مما يفتح الباب أمام استغلال نماذج أساسية للصور أكثر قوة في المستقبل. يمكن زيارة صفحة المشروع عبر الرابط: \url{https://adapt-image-models.github.io/}.