منذ 7 أشهر

الملخص

في السنوات الأخيرة، شهدنا اهتمامًا متزايدًا بمهام الإجابة على الأسئلة المستندة إلى الصور (QA). ومع ذلك، بسبب قيود البيانات، كان هناك عمل أقل بكثير في مجال الإجابة على الأسئلة المستندة إلى الفيديو (Video-based QA). في هذا البحث، نقدم TVQA، وهو مجموعة بيانات كبيرة للإجابة على الأسئلة المستندة إلى الفيديو تعتمد على 6 برامج تلفزيونية شهيرة. تتكون TVQA من 152,545 زوج سؤال وجواب من 21,793 مقطع فيديو، يغطي أكثر من 460 ساعة من الفيديو. تم تصميم الأسئلة لتكون تركيبية بطبيعتها، مما يتطلب من النظم تحديد اللحظات ذات الصلة داخل المقطع، فهم الحوار القائم على الترجمة باللغة العربية (Subtitle-based Dialogue)، وتحديد المفاهيم البصرية ذات الصلة. نقدم تحليلات لهذه المجموعة البيانات الجديدة بالإضافة إلى عدة نقاط بداية وأطر شبكة عصبية متعددة التدفق يمكن تدريبها من البداية إلى النهاية لمهام TVQA. المجموعة متاحة للعامة على الرابط http://tvqa.cs.unc.edu.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار