HyperAIHyperAI
منذ 8 أيام

شافل آند آتند: التكيف بين المجالات في الفيديو

{Jia-Bin Huang, Gaurav Sharma, Jinwoo Choi, Samuel Schulter}
شافل آند آتند: التكيف بين المجالات في الفيديو
الملخص

نعالج مشكلة التكيّف بين المجالات في الفيديوهات بالنسبة لمهام التعرف على الحركات البشرية. مستوحى من تكييف المجالات القائم على الصور، يمكننا تنفيذ تكيّف الفيديو من خلال محاذاة ميزات الإطارات أو المقاطع من الفيديوهات المصدرية والمستهدفة. ومع ذلك، فإن محاذاة جميع المقاطع بالتساوي ليست مثالية، نظرًا لأن ليس جميع المقاطع مفيدة للوظيفة. كمُبتكر أول، نقترح آلية انتباه تركز على المقاطع الأكثر تمييزًا، وتحسّن مباشرةً محاذاة المستوى الفيديوي (بخلاف محاذاة مستوى المقطع). وبما أن الخلفيات غالبًا ما تختلف بشكل كبير بين المجال المصدر والمستهدف، فإن النموذج المُتأثر بالخلفيات في المجال المصدر يُظهر أداءً ضعيفًا عند التكيّف مع الفيديوهات في المجال المستهدف. لتسهيل هذا التحدي، كمُبتكر ثانٍ، نقترح استخدام تنبؤ ترتيب المقاطع كمهمة مساعدة. إن خسارة تنبؤ ترتيب المقاطع، عند دمجها مع خسارة التمييز المجالي، تشجع على تعلم تمثيلات تركز على الأشخاص والكائنات المشاركة في الحركات، بدلًا من الخلفيات غير المفيدة والمتباينة بشكل واسع بين المجالين المصدر والمستهدف. نُظهر تجريبيًا أن كلا المكونين يسهمان إيجابيًا في أداء التكيّف. ونُعلن عن أداءً من الطراز الأول على اثنين من ثلاث بنيات عامة صعبة، اثنان منها مبنيان على مجموعتي بيانات UCF وHMDB، وواحدة على مجموعة بيانات Kinetics إلى مجموعات بيانات NEC-Drone. كما ندعم الاستنتاجات والنتائج بنتائج نوعية.

شافل آند آتند: التكيف بين المجالات في الفيديو | أحدث الأوراق البحثية | HyperAI