HyperAI

الملخص

نقدم نموذج Action Transformer لتحديد وتحديد موقع الأنشطة البشرية في مقاطع الفيديو. نعيد استخدام معمارية من نوع Transformer لتجميع الخصائص من السياق المكاني والزماني حول الشخص الذي نحاول تصنيف أنشطته. نظهر أن استخدام استعلامات عالية الدقة ومحددة للشخص وبعيدة عن التصنيف، يتعلم النموذج بشكل تلقائي تتبع الأفراد واستقاء السياق الدلالي من أنشطة الآخرين. بالإضافة إلى ذلك، يتعلم آلية الانتباه التركيز على اليدين والوجه، اللذين غالباً ما يكونان حاسمين في تمييز النشاط - وكل ذلك دون إشراف صريح سوى الصناديق والتصنيفات. ندرب ونختبر شبكتنا Action Transformer على مجموعة بيانات Atomic Visual Actions (AVA)، حيث نتفوق على أفضل التقنيات الحالية بهامش كبير باستخدام الإطارات RGB الخام كمدخل الوحيد.

الملخص

Rohit Girdhar João Carreira Carl Doersch Andrew Zisserman

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Rohit Girdhar João Carreira Carl Doersch Andrew Zisserman

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Rohit Girdhar João Carreira Carl Doersch Andrew Zisserman

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

شبكة تحويل أفعال الفيديو

Rohit Girdhar João Carreira Carl Doersch Andrew Zisserman

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

شبكة تحويل أفعال الفيديو

Rohit Girdhar João Carreira Carl Doersch Andrew Zisserman

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

شبكة تحويل أفعال الفيديو

Rohit Girdhar João Carreira Carl Doersch Andrew Zisserman

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters