HyperAIHyperAI
منذ 2 أشهر

شبكة تحويل أفعال الفيديو

Rohit Girdhar; João Carreira; Carl Doersch; Andrew Zisserman
شبكة تحويل أفعال الفيديو
الملخص

نقدم نموذج Action Transformer لتحديد وتحديد موقع الأنشطة البشرية في مقاطع الفيديو. نعيد استخدام معمارية من نوع Transformer لتجميع الخصائص من السياق المكاني والزماني حول الشخص الذي نحاول تصنيف أنشطته. نظهر أن استخدام استعلامات عالية الدقة ومحددة للشخص وبعيدة عن التصنيف، يتعلم النموذج بشكل تلقائي تتبع الأفراد واستقاء السياق الدلالي من أنشطة الآخرين. بالإضافة إلى ذلك، يتعلم آلية الانتباه التركيز على اليدين والوجه، اللذين غالباً ما يكونان حاسمين في تمييز النشاط - وكل ذلك دون إشراف صريح سوى الصناديق والتصنيفات. ندرب ونختبر شبكتنا Action Transformer على مجموعة بيانات Atomic Visual Actions (AVA)، حيث نتفوق على أفضل التقنيات الحالية بهامش كبير باستخدام الإطارات RGB الخام كمدخل الوحيد.