HyperAIHyperAI

Command Palette

Search for a command to run...

ActivityNet-QA: مجموعة بيانات لفهم مقاطع الفيديو المعقدة على الويب من خلال الإجابة على الأسئلة

Zhou Yu; Dejing Xu; Jun Yu; Ting Yu; Zhou Zhao; Yueting Zhuang; Dacheng Tao

الملخص

التطورات الحديثة في نمذجة اللغة والرؤية قد تم تطبيقها بنجاح على الإجابة عن أسئلة الصور. من الضروري والطبيعي توسيع هذا الاتجاه البحثي إلى مجال الفيديو للإجابة عن أسئلة الفيديو (VideoQA). بالمقارنة مع مجال الصور، حيث توجد مجموعات بيانات مرجعية كبيرة ومُشَرَّحة بالكامل، فإن مجموعات بيانات VideoQA محدودة الحجم وتُولَد تلقائيًا إلخ. هذه القيود تحد من قابلية استخدامها في الممارسة العملية. هنا نقدم مجموعة بيانات ActivityNet-QA، وهي مجموعة بيانات VideoQA كبيرة ومُشَرَّحة بالكامل. تتكون المجموعة من 58,000 زوج سؤال وجواب على 5,800 فيديو ويب معقد تم استخراجها من مجموعة البيانات الشهيرة ActivityNet. نقدم تحليلًا إحصائيًا لمجموعة بيانات ActivityNet-QA الخاصة بنا ونقوم بإجراء تجارب واسعة النطاق عليها من خلال مقارنة خطوط الأساس الموجودة لـ VideoQA. بالإضافة إلى ذلك، نستكشف استراتيجيات تمثيل الفيديو المختلفة لتحسين أداء VideoQA، خاصةً بالنسبة للفيديوهات الطويلة. يمكن الوصول إلى المجموعة عبر الرابط: https://github.com/MILVLG/activitynet-qa


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp