HyperAIHyperAI
منذ 4 أشهر

تعزيز نماذج التحويل الفيديوي لفهم الأفعال بمساعدة التدريب من خلال النماذج اللغوية المرئية

Lu, Hui ; Jian, Hu ; Poppe, Ronald ; Salah, Albert Ali
تعزيز نماذج التحويل الفيديوي لفهم الأفعال بمساعدة التدريب من خلال النماذج اللغوية المرئية
الملخص

بفضل قدرتهم على استخراج التضمينات الفيديو المكانية-الزمانية ذات الصلة، تعتبر نماذج Vision Transformers (ViTs) حاليًا أفضل النماذج في فهم أفعال الفيديو. ومع ذلك، فإن تعميمهم على المجالات أو المجموعات البيانات محدود إلى حد ما. بالمقابل، أظهرت نماذج اللغة البصرية (VLMs) أداءً استثنائيًا في التعميم، ولكنها غير قادرة حاليًا على معالجة الفيديوهات. نتيجة لذلك، لا يمكنها استخراج الأنماط المكانية-الزمانية التي تعد أساسية لفهم الأفعال. في هذا البحث، نقترح إطار Four-tiered Prompts (FTP) الذي يستفيد من القوى المكملة لنماذج ViTs و VLMs. نحتفظ بقدرة ViTs القوية على تمثيل البيانات المكانية-الزمانية ولكننا نحسن الترميزات البصرية لتكون أكثر شمولية وتعميمًا من خلال مواءمتها مع مخرجات VLMs. يضيف الإطار FTP أربعة معالجات خصائص تركز على جوانب محددة للأفعال البشرية في الفيديوهات: فئة الفعل، مكونات الفعل، وصف الفعل، والمعلومات السياقية. يتم استخدام VLMs فقط أثناء التدريب، ويتكبد الاستدلال تكلفة حسابية ضئيلة. يحقق نهجنا باستمرار أفضل الأداء الحالي. على سبيل المثال، نحقق دقة أعلى بنسبة 93.8% في المركز الأول على مجموعة بيانات Kinetics-400 ونسبة 83.4% على مجموعة بيانات Something-Something V2، مما يتفوق على VideoMAEv2 بمقدار 2.8% و2.6% على التوالي.