منذ 17 أيام

تحسين التعرف على الحركات من خلال تدريب نموذج الترانسفورمر مع مقاطع الفيديو والصور

Bowen Zhang, Jiahui Yu, Christopher Fifty, Wei Han, Andrew M. Dai, Ruoming Pang, Fei Sha

الملخص

في التعرف على الإجراءات، يتم عادةً تدريب النماذج مسبقًا على التعرف على الكائنات باستخدام الصور، مثل ImageNet، ثم يتم تحسينها دقيقًا على المهام المستهدفة للتعرف على الإجراءات باستخدام الفيديوهات. وقد حققت هذه الطريقة أداءً تجريبيًا جيدًا، خاصة مع الهياكل الحديثة القائمة على التحويلات (transformers) في الفيديو. وعلى الرغم من أن العديد من الدراسات الحديثة تسعى إلى تصميم هياكل تحويلات أكثر تقدمًا للتعرف على الإجراءات، إلا أن جهودًا أقل بُذلت في ما يتعلق بكيفية تدريب تحويلات الفيديو. في هذه الدراسة، نستكشف عدة نماذج تدريبية ونقدم نتائج مهمة: أولاً، تُظهر تحويلات الفيديو فوائد من التدريب المشترك على مجموعات بيانات فيديو متنوعة ومساحات تسميات مختلفة (مثلاً، يركز Kinetics على المظهر بينما يركز SomethingSomething على الحركة). ثانيًا، من خلال التدريب المشترك مع الصور (باعتبارها إطارات فردية من الفيديو)، تتعلم تحويلات الفيديو تمثيلات أفضل للفيديو. نُسمّي هذه الطريقة بـ "التدريب المشترك بين الفيديو والصورة للتعرف على الإجراءات" (CoVeR). وبشكل خاص، عند تدريبها مسبقًا على ImageNet-21K باستخدام معمارية TimeSFormer، تُحسّن CoVeR دقة Top-1 لـ Kinetics-400 بنسبة 2.4%، وKinetics-600 بنسبة 2.3%، وSomethingSomething-v2 بنسبة 2.3%. وعند تدريبها مسبقًا على مجموعات بيانات صور أكبر حجمًا، ووفقًا للنهج المتبّع في أحدث النتائج السابقة، تحقق CoVeR أفضل النتائج على Kinetics-400 (87.2%)، وKinetics-600 (87.9%)، وKinetics-700 (79.8%)، وSomethingSomething-v2 (70.9%)، وMoments-in-Time (46.1%)، باستخدام نموذج بسيط للتحويلات المكانية الزمنية.