HyperAIHyperAI
منذ 17 أيام

تمديد مُجمّعات الترميز المقنّعة الفيديوية إلى 128 إطارًا

Nitesh Bharadwaj Gundavarapu, Luke Friedman, Raghav Goyal, Chaitra Hegde, Eirikur Agustsson, Sagar M. Waghmare, Mikhail Sirotenko, Ming-Hsuan Yang, Tobias Weyand, Boqing Gong, Leonid Sigal
تمديد مُجمّعات الترميز المقنّعة الفيديوية إلى 128 إطارًا
الملخص

أظهرت فهم الفيديو تقدماً ملحوظاً في الآونة الأخيرة، حيث أظهرت النماذج الأساسية للفيديو أداءً قوياً بفضل أهداف التدريب ذاتي المراقبة (self-supervised pre-training)، مع انتشار استخدام مُشفّرات التماسك المُقنّعة (Masked Autoencoders - MAE) باعتبارها البنية المفضلة. ومع ذلك، ركّزت معظم الدراسات السابقة التي تعتمد على تدريب ما قبل MAE على تمثيلات فيديو قصيرة نسبياً (طولها 16 أو 32 إطاراً)، وذلك أساساً بسبب قيود الذاكرة والقدرة الحسابية في الأجهزة، التي تتزايد بشكل غير فعّال مع طول الفيديو بسبب طبيعة التحليل التبادلي الكثيف (dense memory-intensive self-attention) في مرحلة الترميز. إحدى الاستراتيجيات الطبيعية لمعالجة هذه التحديات هي تقليل عدد الرموز (tokens) التي يتم استرجاعها أثناء الترميز (أو استخدام ترميز مُقنّع للمرسل). في هذا العمل، نقترح استراتيجية فعّالة لتحديد أولوية الرموز، مما يسمح لنا بتدريب نماذج على تسلسلات فيديو أطول (128 إطاراً) وتحقيق أداءً أفضل من الاستراتيجيات الشائعة مثل الترميز العشوائي أو الموحّد. تتمحور جوهر استراتيجيتنا على ترميز مُقنّع تكيفي للمرسل (adaptive decoder masking)، يُعطي أولوية للرموز الأكثر أهمية ويستخدم الرموز المُكمّلة (quantized tokens) كأهداف للاسترجاع. تعتمد استراتيجيتنا التكيفية على مُحوّل (tokenizer) مبني على نموذج MAGVIT، والذي يتعلم بشكل مشترك الرموز وأولوياتها. ونُحقّق التصميمات المُقترحة من خلال تحليلات مُفصّلة (ablations)، ونلاحظ تحسّناً في أداء المُشفّرات الطويلة (128 إطاراً) مقارنةً بنسخها القصيرة (32 إطاراً). وباستخدام استراتيجيتنا لـ MAE المُشفّر للفيديوهات الطويلة (LVMAE)، نتفوّق على أفضل النماذج الحالية في مجموعة بيانات Diving48 بـ 3.9 نقاط، وفي تصنيف أفعال EPIC-Kitchens-100 بـ 2.5 نقطة، مع الاعتماد على بنية أساسية بسيطة وتدريب ما قبل مُجرّد على الفيديو (بدون الحاجة إلى ملايين أزواج الفيديو-النص المُعلّمة أو استخدام مُشفّرات متخصصة، كما في بعض الدراسات السابقة).