HyperAIHyperAI
منذ شهر واحد

ActivityNet-QA: مجموعة بيانات لفهم مقاطع الفيديو المعقدة على الويب من خلال الإجابة على الأسئلة

Zhou Yu; Dejing Xu; Jun Yu; Ting Yu; Zhou Zhao; Yueting Zhuang; Dacheng Tao
ActivityNet-QA: مجموعة بيانات لفهم مقاطع الفيديو المعقدة على الويب من خلال الإجابة على الأسئلة
الملخص

التطورات الحديثة في نمذجة اللغة والرؤية قد تم تطبيقها بنجاح على الإجابة عن أسئلة الصور. من الضروري والطبيعي توسيع هذا الاتجاه البحثي إلى مجال الفيديو للإجابة عن أسئلة الفيديو (VideoQA). بالمقارنة مع مجال الصور، حيث توجد مجموعات بيانات مرجعية كبيرة ومُشَرَّحة بالكامل، فإن مجموعات بيانات VideoQA محدودة الحجم وتُولَد تلقائيًا إلخ. هذه القيود تحد من قابلية استخدامها في الممارسة العملية. هنا نقدم مجموعة بيانات ActivityNet-QA، وهي مجموعة بيانات VideoQA كبيرة ومُشَرَّحة بالكامل. تتكون المجموعة من 58,000 زوج سؤال وجواب على 5,800 فيديو ويب معقد تم استخراجها من مجموعة البيانات الشهيرة ActivityNet. نقدم تحليلًا إحصائيًا لمجموعة بيانات ActivityNet-QA الخاصة بنا ونقوم بإجراء تجارب واسعة النطاق عليها من خلال مقارنة خطوط الأساس الموجودة لـ VideoQA. بالإضافة إلى ذلك، نستكشف استراتيجيات تمثيل الفيديو المختلفة لتحسين أداء VideoQA، خاصةً بالنسبة للفيديوهات الطويلة. يمكن الوصول إلى المجموعة عبر الرابط: https://github.com/MILVLG/activitynet-qa