AVA: مجموعة فيديو للأفعال البصرية الذرية المحددة زمانيًا ومكانياً

يقدم هذا البحث مجموعة بيانات فيديو تحتوي على أفعال بصرية ذرية (AVA) محددة مكانياً وزمنياً. تضم مجموعة البيانات AVA تسميات كثيفة لـ 80 فعلًا بصريًا ذريًا في 430 مقطع فيديو مدتها 15 دقيقة، حيث يتم تحديد الأفعال مكانياً وزمنياً، مما يؤدي إلى وجود 1.58 مليون تسمية للأفعال، مع وجود تسميات متعددة للشخص الواحد بشكل متكرر. الخصائص الرئيسية لمجموعتنا من البيانات هي: (1) تعريف الأفعال البصرية الذرية بدلاً من الأفعال المركبة؛ (2) التسميات الدقيقة المكانية والزمنية، والتي قد تتضمن تسميات متعددة لكل شخص؛ (3) التسميات الشاملة لهذه الأفعال البصرية الذرية على مدى مقاطع الفيديو التي تستغرق 15 دقيقة؛ (4) ربط الأشخاص زمنياً عبر المقاطع المتتالية؛ و(5) استخدام الأفلام لجمع مجموعة متنوعة من تمثيلات الأفعال. هذا يختلف عن مجموعات البيانات الموجودة لتحديد الأفعال المكانية والزمنية، والتي توفر عادةً تسميات نادرة للأفعال المركبة في مقاطع الفيديو القصيرة.ل Benchmarking هذه الصعوبة، نقدم نهجًا جديدًا لتحديد موقع الأفعال يعتمد على الطرق الرائدة حاليًا، ويظهر أداء أفضل على فئات JHMDB و UCF101-24. بينما يحدد هذا النهج مستوى جديدًا من التميز في مجموعات البيانات الموجودة، فإن النتائج الإجمالية على AVA منخفضة عند 15.6% mAP، مما يؤكد الحاجة إلى تطوير نهج جديدة لفهم الفيديو.ملاحظة: تم استخدام المصطلح "Benchmarking" كما هو لأنه شائع في مجال العلوم الحاسوبية والهندسة.