HyperAIHyperAI

Command Palette

Search for a command to run...

تمديد مُجمّعات الترميز المقنّعة الفيديوية إلى 128 إطارًا

الملخص

أظهرت فهم الفيديو تقدماً ملحوظاً في الآونة الأخيرة، حيث أظهرت النماذج الأساسية للفيديو أداءً قوياً بفضل أهداف التدريب ذاتي المراقبة (self-supervised pre-training)، مع انتشار استخدام مُشفّرات التماسك المُقنّعة (Masked Autoencoders - MAE) باعتبارها البنية المفضلة. ومع ذلك، ركّزت معظم الدراسات السابقة التي تعتمد على تدريب ما قبل MAE على تمثيلات فيديو قصيرة نسبياً (طولها 16 أو 32 إطاراً)، وذلك أساساً بسبب قيود الذاكرة والقدرة الحسابية في الأجهزة، التي تتزايد بشكل غير فعّال مع طول الفيديو بسبب طبيعة التحليل التبادلي الكثيف (dense memory-intensive self-attention) في مرحلة الترميز. إحدى الاستراتيجيات الطبيعية لمعالجة هذه التحديات هي تقليل عدد الرموز (tokens) التي يتم استرجاعها أثناء الترميز (أو استخدام ترميز مُقنّع للمرسل). في هذا العمل، نقترح استراتيجية فعّالة لتحديد أولوية الرموز، مما يسمح لنا بتدريب نماذج على تسلسلات فيديو أطول (128 إطاراً) وتحقيق أداءً أفضل من الاستراتيجيات الشائعة مثل الترميز العشوائي أو الموحّد. تتمحور جوهر استراتيجيتنا على ترميز مُقنّع تكيفي للمرسل (adaptive decoder masking)، يُعطي أولوية للرموز الأكثر أهمية ويستخدم الرموز المُكمّلة (quantized tokens) كأهداف للاسترجاع. تعتمد استراتيجيتنا التكيفية على مُحوّل (tokenizer) مبني على نموذج MAGVIT، والذي يتعلم بشكل مشترك الرموز وأولوياتها. ونُحقّق التصميمات المُقترحة من خلال تحليلات مُفصّلة (ablations)، ونلاحظ تحسّناً في أداء المُشفّرات الطويلة (128 إطاراً) مقارنةً بنسخها القصيرة (32 إطاراً). وباستخدام استراتيجيتنا لـ MAE المُشفّر للفيديوهات الطويلة (LVMAE)، نتفوّق على أفضل النماذج الحالية في مجموعة بيانات Diving48 بـ 3.9 نقاط، وفي تصنيف أفعال EPIC-Kitchens-100 بـ 2.5 نقطة، مع الاعتماد على بنية أساسية بسيطة وتدريب ما قبل مُجرّد على الفيديو (بدون الحاجة إلى ملايين أزواج الفيديو-النص المُعلّمة أو استخدام مُشفّرات متخصصة، كما في بعض الدراسات السابقة).


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp