HyperAIHyperAI
منذ 4 أشهر

فهم الفيديو الشامل على نطاق واسع

Ali Diba; Mohsen Fayyaz; Vivek Sharma; Manohar Paluri; Jurgen Gall; Rainer Stiefelhagen; Luc Van Gool
فهم الفيديو الشامل على نطاق واسع
الملخص

قد تقدم تقنيات التعرف على الفيديو في السنوات الأخيرة بفضل معايير تحتوي على تسميات غنية. ومع ذلك، لا يزال البحث مقتصرًا بشكل أساسي على التعرف على حركات الإنسان أو الرياضات - حيث يتم التركيز على مهمة فهم الفيديو ذات الطابع الخاص للغاية، مما يترك فجوة كبيرة فيما يتعلق بوصف المحتوى الكلي للفيديو. نسد هذه الفجوة من خلال تقديم مجموعة بيانات واسعة النطاق للفهم الشامل للفيديو (Holistic Video Understanding Dataset) المعروفة اختصارًا بـ (HVU). يتم تنظيم HVU بطريقة هرمية في تصنيف دلالي يركز على فهم الفيديو متعدد التسميات والمهام كمشكلة شاملة تشمل التعرف على العديد من الجوانب الدلالية في المشهد الديناميكي. تحتوي HVU على حوالي 572 ألف فيديو مع 9 ملايين تسمية لاستخدامها في التدريب والتحقق والاختبار، وتغطي هذه البيانات 3142 تسمية. تشتمل HVU على جوانب دلالية محددة ضمن فئات المشاهد والأجسام والحركات والأحداث والسمات والمفاهيم التي تعكس طبيعيًا السيناريوهات الحقيقية.نوضح قدرة التعميم لمجموعة بيانات HVU من خلال ثلاثة مهام صعبة: 1) تصنيف الفيديوهات، 2) إنشاء عناوين للفيديوهات (Video Captioning)، و3) تجميع الفيديوهات (Video Clustering). وفيما يتعلق بتصنيف الفيديوهات بشكل خاص، نقدم بنية جديدة للشبكات العصبية العميقة الزمانية-المكانية تُعرف باسم "شبكة المظهر الشامل والزمن" (Holistic Appearance and Temporal Network) أو (HATNet)، والتي تقوم بتجميع الأبنية ثنائية الأبعاد وثلاثية الأبعاد في واحدة من خلال الجمع بين تمثيلات الوسط للمظهر والدلائل الزمنية. تتخصص HATNet في مشكلة التعلم متعدد التسميات والمهام، وهي مدربة بطريقة شاملة من البداية إلى النهاية. عبر تجاربنا، نؤكد فكرة أن تعلم التمثيل الشامل هو أمر مكمل ويمكن أن يلعب دورًا رئيسيًا في تمكين العديد من التطبيقات الحقيقية.