HyperAIHyperAI

Command Palette

Search for a command to run...

TVR: مجموعة بيانات كبيرة الحجم لاسترجاع لحظة الفيديو-الترجمة

Jie Lei Licheng Yu Tamara L. Berg Mohit Bansal

الملخص

نُقدِّم مجموعة بيانات جديدة تُسمى استرجاع عرض التلفاز (TVR)، وهي مجموعة بيانات متعددة الوسائط لاسترجاع المحتوى. يُطلَب من الأنظمة فهم الفيديوهات والنصوص المرتبطة بها من خلال النصوص الترجمية (المحادثات)، مما يجعل المهمة أكثر واقعية. تتضمن المجموعة 109 ألف استعلام تم جمعها من 21.8 ألف فيديو مستمدة من 6 عروض تلفاز متعددة الأنواع، حيث يرتبط كل استعلام بنافذة زمنية دقيقة. كما تم تصنيف الاستعلامات حسب نوعها، لتُبيّن ما إذا كانت مرتبطة بالفيديو أو بالنص الترجمي أو بكليهما، مما يمكّن من تحليل معمّق للمجموعة والأساليب التي تُبنى عليها. تم تطبيق اختبارات صارمة للتأهيل والتحقق من التصنيفات بعد الجمع لضمان جودة البيانات المجمعة. علاوةً على ذلك، نقدّم عدة نماذج أولية (Baselines) وشبكة جديدة تُسمى التعرف على اللحظة متعددة الوسائط (XML)، مخصصة لمهام استرجاع اللحظات متعددة الوسائط. يعتمد النموذج المُقترح (XML) على تصميم دمج متأخر (Late Fusion) مع كاشف جديد يُسمى كاشف البداية-النهاية القائم على التصفية التلافيفية (ConvSE)، ويتفوّق على النماذج الأولية بفارق كبير وبكفاءة أفضل، مقدّمًا نقطة انطلاق قوية للبحوث المستقبلية. كما جمعنا وصفًا إضافيًا لكل لحظة مُصنّفة في TVR، لتكوين مجموعة بيانات جديدة للوصف متعدد الوسائط تحتوي على 262 ألف وصف، تُسمى "وصف عرض التلفاز" (TVC). وتُعد كلا المجموعتين متاحتين للجمهور.TVR: https://tvr.cs.unc.eduTVC: https://tvr.cs.unc.edu/tvc.html


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp