HyperAIHyperAI

Command Palette

Search for a command to run...

TVQA: الإجابة على الأسئلة المرتبطة بالفيديو بشكل محلي ومركب

Jie Lei Licheng Yu Mohit Bansal Tamara L. Berg

الملخص

في السنوات الأخيرة، شهدنا اهتمامًا متزايدًا بمهام الإجابة على الأسئلة المستندة إلى الصور (QA). ومع ذلك، بسبب قيود البيانات، كان هناك عمل أقل بكثير في مجال الإجابة على الأسئلة المستندة إلى الفيديو (Video-based QA). في هذا البحث، نقدم TVQA، وهو مجموعة بيانات كبيرة للإجابة على الأسئلة المستندة إلى الفيديو تعتمد على 6 برامج تلفزيونية شهيرة. تتكون TVQA من 152,545 زوج سؤال وجواب من 21,793 مقطع فيديو، يغطي أكثر من 460 ساعة من الفيديو. تم تصميم الأسئلة لتكون تركيبية بطبيعتها، مما يتطلب من النظم تحديد اللحظات ذات الصلة داخل المقطع، فهم الحوار القائم على الترجمة باللغة العربية (Subtitle-based Dialogue)، وتحديد المفاهيم البصرية ذات الصلة. نقدم تحليلات لهذه المجموعة البيانات الجديدة بالإضافة إلى عدة نقاط بداية وأطر شبكة عصبية متعددة التدفق يمكن تدريبها من البداية إلى النهاية لمهام TVQA. المجموعة متاحة للعامة على الرابط http://tvqa.cs.unc.edu.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp