Command Palette
Search for a command to run...
ActivityNet-QA: مجموعة بيانات لفهم مقاطع الفيديو المعقدة على الويب من خلال الإجابة على الأسئلة
ActivityNet-QA: مجموعة بيانات لفهم مقاطع الفيديو المعقدة على الويب من خلال الإجابة على الأسئلة
Zhou Yu; Dejing Xu; Jun Yu; Ting Yu; Zhou Zhao; Yueting Zhuang; Dacheng Tao
الملخص
التطورات الحديثة في نمذجة اللغة والرؤية قد تم تطبيقها بنجاح على الإجابة عن أسئلة الصور. من الضروري والطبيعي توسيع هذا الاتجاه البحثي إلى مجال الفيديو للإجابة عن أسئلة الفيديو (VideoQA). بالمقارنة مع مجال الصور، حيث توجد مجموعات بيانات مرجعية كبيرة ومُشَرَّحة بالكامل، فإن مجموعات بيانات VideoQA محدودة الحجم وتُولَد تلقائيًا إلخ. هذه القيود تحد من قابلية استخدامها في الممارسة العملية. هنا نقدم مجموعة بيانات ActivityNet-QA، وهي مجموعة بيانات VideoQA كبيرة ومُشَرَّحة بالكامل. تتكون المجموعة من 58,000 زوج سؤال وجواب على 5,800 فيديو ويب معقد تم استخراجها من مجموعة البيانات الشهيرة ActivityNet. نقدم تحليلًا إحصائيًا لمجموعة بيانات ActivityNet-QA الخاصة بنا ونقوم بإجراء تجارب واسعة النطاق عليها من خلال مقارنة خطوط الأساس الموجودة لـ VideoQA. بالإضافة إلى ذلك، نستكشف استراتيجيات تمثيل الفيديو المختلفة لتحسين أداء VideoQA، خاصةً بالنسبة للفيديوهات الطويلة. يمكن الوصول إلى المجموعة عبر الرابط: https://github.com/MILVLG/activitynet-qa