HyperAIHyperAI
منذ 2 أشهر

TVR: مجموعة بيانات كبيرة الحجم لاسترجاع لحظة الفيديو-الترجمة

Jie Lei, Licheng Yu, Tamara L. Berg, Mohit Bansal
TVR: مجموعة بيانات كبيرة الحجم لاسترجاع لحظة الفيديو-الترجمة
الملخص

نُقدِّم مجموعة بيانات جديدة تُسمى استرجاع عرض التلفاز (TVR)، وهي مجموعة بيانات متعددة الوسائط لاسترجاع المحتوى. يُطلَب من الأنظمة فهم الفيديوهات والنصوص المرتبطة بها من خلال النصوص الترجمية (المحادثات)، مما يجعل المهمة أكثر واقعية. تتضمن المجموعة 109 ألف استعلام تم جمعها من 21.8 ألف فيديو مستمدة من 6 عروض تلفاز متعددة الأنواع، حيث يرتبط كل استعلام بنافذة زمنية دقيقة. كما تم تصنيف الاستعلامات حسب نوعها، لتُبيّن ما إذا كانت مرتبطة بالفيديو أو بالنص الترجمي أو بكليهما، مما يمكّن من تحليل معمّق للمجموعة والأساليب التي تُبنى عليها. تم تطبيق اختبارات صارمة للتأهيل والتحقق من التصنيفات بعد الجمع لضمان جودة البيانات المجمعة. علاوةً على ذلك، نقدّم عدة نماذج أولية (Baselines) وشبكة جديدة تُسمى التعرف على اللحظة متعددة الوسائط (XML)، مخصصة لمهام استرجاع اللحظات متعددة الوسائط. يعتمد النموذج المُقترح (XML) على تصميم دمج متأخر (Late Fusion) مع كاشف جديد يُسمى كاشف البداية-النهاية القائم على التصفية التلافيفية (ConvSE)، ويتفوّق على النماذج الأولية بفارق كبير وبكفاءة أفضل، مقدّمًا نقطة انطلاق قوية للبحوث المستقبلية. كما جمعنا وصفًا إضافيًا لكل لحظة مُصنّفة في TVR، لتكوين مجموعة بيانات جديدة للوصف متعدد الوسائط تحتوي على 262 ألف وصف، تُسمى "وصف عرض التلفاز" (TVC). وتُعد كلا المجموعتين متاحتين للجمهور.TVR: https://tvr.cs.unc.eduTVC: https://tvr.cs.unc.edu/tvc.html