التكيف ثنائي المسار من الصور إلى متحولات الفيديو

في هذا البحث، نقوم بنقل قوة التمثيل المتفوقة للنماذج الأساسية المرئية، مثل ViT وSwin، لفهم الفيديو باستخدام عدد قليل من المعلمات القابلة للتدريب. طرق التكيف السابقة قد أخذت في الاعتبار النمذجة المكانية والزمانية مع وحدة تعلم موحدة ولكنها لا تزال تعاني من عدم الاستفادة الكاملة من قدرات التمثيل للمتحولات الصورية. نعتقد أن الهندسة الثنائية المسار (التي تتكون من مسارين) الشائعة في نماذج الفيديو يمكن أن تخفف من هذه المشكلة. نقترح هندسة تكيف ثنائية المسار جديدة مقسمة إلى مسارات تكيف مكانية وزمانية، حيث يتم استخدام متكيف زجاجي خفيف الوزن في كل كتلة من كتل المتحول. وبشكل خاص فيما يتعلق بالنمذجة الديناميكية الزمانية، ندمج الإطارات المتتابعة في مجموعة إطارات على شكل شبكة لتقليد دقيق لقدرة المتحولات المرئية على استنتاج العلاقات بين الرموز. بالإضافة إلى ذلك، نجري دراسات مكثفة للعديد من النقاط الأساسية من وجهة نظر موحدة في فهم الفيديو ونقارنها بـ DualPath. أثبتت النتائج التجريبية على أربع مقاييس للتعرف على الحركات أن المتحولات الصورية المدربة مسبقًا مع DualPath يمكن تعميمها بشكل فعال خارج نطاق البيانات.