HyperAIHyperAI

Command Palette

Search for a command to run...

تحسين التعرف على الحركات من خلال تدريب نموذج الترانسفورمر مع مقاطع الفيديو والصور

Bowen Zhang Jiahui Yu Christopher Fifty Wei Han Andrew M. Dai Ruoming Pang Fei Sha

الملخص

في التعرف على الإجراءات، يتم عادةً تدريب النماذج مسبقًا على التعرف على الكائنات باستخدام الصور، مثل ImageNet، ثم يتم تحسينها دقيقًا على المهام المستهدفة للتعرف على الإجراءات باستخدام الفيديوهات. وقد حققت هذه الطريقة أداءً تجريبيًا جيدًا، خاصة مع الهياكل الحديثة القائمة على التحويلات (transformers) في الفيديو. وعلى الرغم من أن العديد من الدراسات الحديثة تسعى إلى تصميم هياكل تحويلات أكثر تقدمًا للتعرف على الإجراءات، إلا أن جهودًا أقل بُذلت في ما يتعلق بكيفية تدريب تحويلات الفيديو. في هذه الدراسة، نستكشف عدة نماذج تدريبية ونقدم نتائج مهمة: أولاً، تُظهر تحويلات الفيديو فوائد من التدريب المشترك على مجموعات بيانات فيديو متنوعة ومساحات تسميات مختلفة (مثلاً، يركز Kinetics على المظهر بينما يركز SomethingSomething على الحركة). ثانيًا، من خلال التدريب المشترك مع الصور (باعتبارها إطارات فردية من الفيديو)، تتعلم تحويلات الفيديو تمثيلات أفضل للفيديو. نُسمّي هذه الطريقة بـ "التدريب المشترك بين الفيديو والصورة للتعرف على الإجراءات" (CoVeR). وبشكل خاص، عند تدريبها مسبقًا على ImageNet-21K باستخدام معمارية TimeSFormer، تُحسّن CoVeR دقة Top-1 لـ Kinetics-400 بنسبة 2.4%، وKinetics-600 بنسبة 2.3%، وSomethingSomething-v2 بنسبة 2.3%. وعند تدريبها مسبقًا على مجموعات بيانات صور أكبر حجمًا، ووفقًا للنهج المتبّع في أحدث النتائج السابقة، تحقق CoVeR أفضل النتائج على Kinetics-400 (87.2%)، وKinetics-600 (87.9%)، وKinetics-700 (79.8%)، وSomethingSomething-v2 (70.9%)، وMoments-in-Time (46.1%)، باستخدام نموذج بسيط للتحويلات المكانية الزمنية.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp