HyperAIHyperAI
منذ 9 أيام

تنبؤ الفيديو باستخدام محولات بدون تكرار أو تبليط

Yujin Tang, Lu Qi, Fei Xie, Xiangtai Li, Chao Ma, Ming-Hsuan Yang
تنبؤ الفيديو باستخدام محولات بدون تكرار أو تبليط
الملخص

لقد شهدت توقعات الفيديو ظهور نماذج تعتمد على الشبكات العصبية التكرارية (RNN) بقيادة ConvLSTM، وكذلك نماذج تعتمد على الشبكات العصبية التلافيفية (CNN) بقيادة SimVP. وبعد النجاح الكبير الذي حققه ViT، سعى العديد من الدراسات الحديثة إلى دمج ViT ضمن الإطارات التي تعتمد على RNN وCNN، مما أسفر عن تحسين الأداء بشكل ملحوظ. وعلى الرغم من تقديرنا لهذه النماذج السابقة، نطرح سؤالًا جوهريًا: هل هناك حل أبسط ولكن أكثر فعالية يمكنه التخلص من التكلفة الحسابية العالية للنماذج RNN، في الوقت الذي يعالج فيه قيود مجال الاستقبال المحدودة وسوء التعميم لدى الشبكات العصبية التلافيفية؟ وما مدى التقدم الذي يمكن تحقيقه باستخدام نموذج بسيط بالكامل مبني على المُحولات (Transformer) لمهام توقع الفيديو؟ في هذه الورقة، نقترح PredFormer، وهي إطار عمل يعتمد بالكامل على المُحولات ذات المُدخلات المشروطة (Gated Transformers). ونقدم تحليلًا شاملاً لآلية الانتباه ثلاثية الأبعاد (3D Attention) في سياق توقع الفيديو. وتبين التجارب الواسعة أن PredFormer يحقق أداءً متفوقًا على مستوى الحد الأقصى (state-of-the-art) عبر أربع معايير قياسية شائعة. وتجلى التحسن الكبير في الدقة والكفاءة، مما يسلط الضوء على الإمكانات الكبيرة لـ PredFormer كأساس قوي لتطبيقات توقع الفيديو في العالم الحقيقي. سيتم إصدار الشفرة المصدرية والنماذج المدربة على الرابط التالي: https://github.com/yyyujintang/PredFormer.

تنبؤ الفيديو باستخدام محولات بدون تكرار أو تبليط | أحدث الأوراق البحثية | HyperAI