الملخص

قد تقدم تقنيات التعرف على الفيديو في السنوات الأخيرة بفضل معايير تحتوي على تسميات غنية. ومع ذلك، لا يزال البحث مقتصرًا بشكل أساسي على التعرف على حركات الإنسان أو الرياضات - حيث يتم التركيز على مهمة فهم الفيديو ذات الطابع الخاص للغاية، مما يترك فجوة كبيرة فيما يتعلق بوصف المحتوى الكلي للفيديو. نسد هذه الفجوة من خلال تقديم مجموعة بيانات واسعة النطاق للفهم الشامل للفيديو (Holistic Video Understanding Dataset) المعروفة اختصارًا بـ (HVU). يتم تنظيم HVU بطريقة هرمية في تصنيف دلالي يركز على فهم الفيديو متعدد التسميات والمهام كمشكلة شاملة تشمل التعرف على العديد من الجوانب الدلالية في المشهد الديناميكي. تحتوي HVU على حوالي 572 ألف فيديو مع 9 ملايين تسمية لاستخدامها في التدريب والتحقق والاختبار، وتغطي هذه البيانات 3142 تسمية. تشتمل HVU على جوانب دلالية محددة ضمن فئات المشاهد والأجسام والحركات والأحداث والسمات والمفاهيم التي تعكس طبيعيًا السيناريوهات الحقيقية.نوضح قدرة التعميم لمجموعة بيانات HVU من خلال ثلاثة مهام صعبة: 1) تصنيف الفيديوهات، 2) إنشاء عناوين للفيديوهات (Video Captioning)، و3) تجميع الفيديوهات (Video Clustering). وفيما يتعلق بتصنيف الفيديوهات بشكل خاص، نقدم بنية جديدة للشبكات العصبية العميقة الزمانية-المكانية تُعرف باسم "شبكة المظهر الشامل والزمن" (Holistic Appearance and Temporal Network) أو (HATNet)، والتي تقوم بتجميع الأبنية ثنائية الأبعاد وثلاثية الأبعاد في واحدة من خلال الجمع بين تمثيلات الوسط للمظهر والدلائل الزمنية. تتخصص HATNet في مشكلة التعلم متعدد التسميات والمهام، وهي مدربة بطريقة شاملة من البداية إلى النهاية. عبر تجاربنا، نؤكد فكرة أن تعلم التمثيل الشامل هو أمر مكمل ويمكن أن يلعب دورًا رئيسيًا في تمكين العديد من التطبيقات الحقيقية.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

فهم الفيديو الشامل على نطاق واسع

Ali Diba; Mohsen Fayyaz; Vivek Sharma; Manohar Paluri; Jurgen Gall; Rainer Stiefelhagen; Luc Van Gool

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

فهم الفيديو الشامل على نطاق واسع

Ali Diba; Mohsen Fayyaz; Vivek Sharma; Manohar Paluri; Jurgen Gall; Rainer Stiefelhagen; Luc Van Gool

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

فهم الفيديو الشامل على نطاق واسع

Ali Diba; Mohsen Fayyaz; Vivek Sharma; Manohar Paluri; Jurgen Gall; Rainer Stiefelhagen; Luc Van Gool

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters