HyperAIHyperAI

Command Palette

Search for a command to run...

ZeroI2V: التكيف الصفر لتحويلات المسبقة التدريب من الصور إلى الفيديو

Xinhao Li Yuhan Zhu Limin Wang

الملخص

لقد ظهر تكييف نماذج الصور إلى مجال الفيديو كنموذج فعال لحل مهام التعرف على الفيديو. ومع ذلك، فإن العدد الكبير من المعلمات وقابلية النقل الفعالة لنماذج الصور يجعل إجراء التعديل الدقيق الكامل أقل كفاءة وحتى غير ضروري. لذلك، يتجه البحث الحديث نحو تكييف صورة إلى فيديو بكفاءة المعلمات. ومع ذلك، فإن هذه استراتيجيات التكيف لا مفر منها تضيف تكاليف حسابية إضافية للتعامل مع الفجوة بين المجالات والنمذجة الزمنية في مقاطع الفيديو.في هذا البحث، نقدم نموذج تكيف جديد (ZeroI2V) لنقل متحولات الصور إلى مهام التعرف على الفيديو (أي، عدم إضافة أي تكلفة إضافية للنماذج الأصلية أثناء الاستدلال). لتحقيق هذا الهدف، نقدم تصميمين أساسيين. أولاً، لتقاطع الديناميكيات في مقاطع الفيديو وتقليل صعوبة تكييف الصورة إلى الفيديو، نستغل مرونة الانتباه الذاتي ونقدم انتباهًا ثنائي الرأس للمكان والزمان (STDHA). يمنح هذا النهج متحولات الصور قدرة النمذجة الزمنية بكفاءة دون زيادة المعلمات أو الحسابات الإضافية. ثانيًا، للتعامل مع الفجوة بين مجالات الصور والفيديوهات، نقترح استراتيجية تعديل خطية تستفيد من المحولات الخطية الخفيفة والموزعة بكثافة لنقل النماذج الثابتة للصور بشكل كامل إلى التعرف على الفيديو. بفضل التصميم الخطي المخصص، يمكن دمج جميع المحولات الجديدة التي تم إضافتها بسهولة مع الوحدات الأصلية من خلال إعادة هيكلة الوحدات بعد التدريب، مما يتيح عدم وجود أي تكلفة إضافية أثناء الاستدلال.تظهر التجارب الشاملة على مقاييس التعرف على الفيديو ذات الرقابة الكاملة والقليلة أن ZeroI2V يمكن أن يطابق أو حتى يتخطى الأساليب السابقة الأكثر حداثة بينما يتمتع بكفاءة أفضل في المعلمات والاستدلال.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
ZeroI2V: التكيف الصفر لتحويلات المسبقة التدريب من الصور إلى الفيديو | مستندات | HyperAI