HyperAIHyperAI

Command Palette

Search for a command to run...

التكيف ثنائي المسار من الصور إلى متحولات الفيديو

Jungin Park Jiyoung Lee Kwanghoon Sohn

الملخص

في هذا البحث، نقوم بنقل قوة التمثيل المتفوقة للنماذج الأساسية المرئية، مثل ViT وSwin، لفهم الفيديو باستخدام عدد قليل من المعلمات القابلة للتدريب. طرق التكيف السابقة قد أخذت في الاعتبار النمذجة المكانية والزمانية مع وحدة تعلم موحدة ولكنها لا تزال تعاني من عدم الاستفادة الكاملة من قدرات التمثيل للمتحولات الصورية. نعتقد أن الهندسة الثنائية المسار (التي تتكون من مسارين) الشائعة في نماذج الفيديو يمكن أن تخفف من هذه المشكلة. نقترح هندسة تكيف ثنائية المسار جديدة مقسمة إلى مسارات تكيف مكانية وزمانية، حيث يتم استخدام متكيف زجاجي خفيف الوزن في كل كتلة من كتل المتحول. وبشكل خاص فيما يتعلق بالنمذجة الديناميكية الزمانية، ندمج الإطارات المتتابعة في مجموعة إطارات على شكل شبكة لتقليد دقيق لقدرة المتحولات المرئية على استنتاج العلاقات بين الرموز. بالإضافة إلى ذلك، نجري دراسات مكثفة للعديد من النقاط الأساسية من وجهة نظر موحدة في فهم الفيديو ونقارنها بـ DualPath. أثبتت النتائج التجريبية على أربع مقاييس للتعرف على الحركات أن المتحولات الصورية المدربة مسبقًا مع DualPath يمكن تعميمها بشكل فعال خارج نطاق البيانات.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp