HyperAIHyperAI

Command Palette

Search for a command to run...

AVA: مجموعة فيديو للأفعال البصرية الذرية المحددة زمانيًا ومكانياً

Chunhui Gu* Chen Sun* David A. Ross* Carl Vondrick* Caroline Pantofaru* Yeqing Li* Sudheendra Vijayanarasimhan* George Toderici* Susanna Ricco* Rahul Sukthankar* Cordelia Schmid† Jitendra Malik‡

الملخص

يقدم هذا البحث مجموعة بيانات فيديو تحتوي على أفعال بصرية ذرية (AVA) محددة مكانياً وزمنياً. تضم مجموعة البيانات AVA تسميات كثيفة لـ 80 فعلًا بصريًا ذريًا في 430 مقطع فيديو مدتها 15 دقيقة، حيث يتم تحديد الأفعال مكانياً وزمنياً، مما يؤدي إلى وجود 1.58 مليون تسمية للأفعال، مع وجود تسميات متعددة للشخص الواحد بشكل متكرر. الخصائص الرئيسية لمجموعتنا من البيانات هي: (1) تعريف الأفعال البصرية الذرية بدلاً من الأفعال المركبة؛ (2) التسميات الدقيقة المكانية والزمنية، والتي قد تتضمن تسميات متعددة لكل شخص؛ (3) التسميات الشاملة لهذه الأفعال البصرية الذرية على مدى مقاطع الفيديو التي تستغرق 15 دقيقة؛ (4) ربط الأشخاص زمنياً عبر المقاطع المتتالية؛ و(5) استخدام الأفلام لجمع مجموعة متنوعة من تمثيلات الأفعال. هذا يختلف عن مجموعات البيانات الموجودة لتحديد الأفعال المكانية والزمنية، والتي توفر عادةً تسميات نادرة للأفعال المركبة في مقاطع الفيديو القصيرة.ل Benchmarking هذه الصعوبة، نقدم نهجًا جديدًا لتحديد موقع الأفعال يعتمد على الطرق الرائدة حاليًا، ويظهر أداء أفضل على فئات JHMDB و UCF101-24. بينما يحدد هذا النهج مستوى جديدًا من التميز في مجموعات البيانات الموجودة، فإن النتائج الإجمالية على AVA منخفضة عند 15.6% mAP، مما يؤكد الحاجة إلى تطوير نهج جديدة لفهم الفيديو.ملاحظة: تم استخدام المصطلح "Benchmarking" كما هو لأنه شائع في مجال العلوم الحاسوبية والهندسة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp