HyperAIHyperAI

Command Palette

Search for a command to run...

شبكة تحويل أفعال الفيديو

Rohit Girdhar João Carreira Carl Doersch Andrew Zisserman

الملخص

نقدم نموذج Action Transformer لتحديد وتحديد موقع الأنشطة البشرية في مقاطع الفيديو. نعيد استخدام معمارية من نوع Transformer لتجميع الخصائص من السياق المكاني والزماني حول الشخص الذي نحاول تصنيف أنشطته. نظهر أن استخدام استعلامات عالية الدقة ومحددة للشخص وبعيدة عن التصنيف، يتعلم النموذج بشكل تلقائي تتبع الأفراد واستقاء السياق الدلالي من أنشطة الآخرين. بالإضافة إلى ذلك، يتعلم آلية الانتباه التركيز على اليدين والوجه، اللذين غالباً ما يكونان حاسمين في تمييز النشاط - وكل ذلك دون إشراف صريح سوى الصناديق والتصنيفات. ندرب ونختبر شبكتنا Action Transformer على مجموعة بيانات Atomic Visual Actions (AVA)، حيث نتفوق على أفضل التقنيات الحالية بهامش كبير باستخدام الإطارات RGB الخام كمدخل الوحيد.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
شبكة تحويل أفعال الفيديو | مستندات | HyperAI