HyperAIHyperAI
منذ 17 أيام

UniFormer: مُحَوِّل مُوحَّد لتعلُّم تمثيل فَعَّال فَضائي-زمني

{Yu Qiao, Hongsheng Li, Yu Liu, Guanglu Song, Gao Peng, Yali Wang, Kunchang Li}
UniFormer: مُحَوِّل مُوحَّد لتعلُّم تمثيل فَعَّال فَضائي-زمني
الملخص

يُعدّ التعلّم من مقاييس مكانيّة-زمنيّة غنية ومتعددة المقاييس من مقاطع الفيديو عالية الأبعاد مهمةً صعبة، نظرًا للتكاثر المحلي الكبير والاعتماد العالمي المعقد بين إطارات الفيديو. وقد تمّ دفع التقدّم الأخير في هذا المجال بشكل رئيسي من خلال الشبكات العصبية التلافيفية ثلاثية الأبعاد (3D Convolutional Neural Networks) ونماذج الرؤية المُحوّلة (Vision Transformers). وعلى الرغم من أن التلافيف ثلاثية الأبعاد يمكنها بفعالية جمع السياق المحلي وتقليل التكرار المحلي من خلال جوار صغير ثلاثي الأبعاد، إلا أنها تعاني من قدرة محدودة على التقاط الاعتماد العالمي بسبب حقل الاستقبال المحدود. من ناحية أخرى، يمكن لنماذج الرؤية المُحوّلة التقاط الاعتماد على المدى الطويل بفعالية من خلال آلية الانتباه الذاتي، لكنها تعاني من قيود في تقليل التكرار المحلي نظرًا لاستخدام مقارنة متشابهة عمياء بين جميع الرموز (tokens) في كل طبقة. استنادًا إلى هذه الملاحظات، نقترح نموذجًا جديدًا يُسمّى "المحوّل الموحّد" (Unified Transformer أو UniFormer)، الذي يدمج بسلاسة مزايا التلافيف ثلاثية الأبعاد والانتباه الذاتي المكاني-الزمني في هيكل مُبسّط للمحوّل، ويحقق توازنًا مفضّلًا بين التكلفة الحسابية والدقة. على عكس المحولات التقليدية، يمكن لـ "مُجمّع العلاقات" (relation aggregator) في نموذجنا التعامل مع كل من التكرار المكاني-الزمني والاعتماد، من خلال تعلّم ارتباطات الرموز المحلية والعالمية على التوالي في الطبقات السطحية والعميقة. أجرينا تجارب واسعة على معايير الفيديو الشهيرة، مثل Kinetics-400 وKinetics-600 وSomething-Something V1&V2. وباستخدام تدريب مسبق فقط على ImageNet-1K، حقق UniFormer دقة قمة 82.9% و84.8% على Kinetics-400 وKinetics-600 على التوالي، مع استهلاك ما يعادل 10 أضعاف أقل من عدد العمليات الحسابية (GFLOPs) مقارنةً بالأساليب المتطورة الأخرى. أما في معياري Something-Something V1 وV2، فقد حقق UniFormer أداءً جديدًا على مستوى الحد الأقصى (SOTA) بدرجة دقة قمة قدرها 60.8% و71.4% على التوالي.