HyperAIHyperAI
منذ شهر واحد

TVQA: الإجابة على الأسئلة المرتبطة بالفيديو بشكل محلي ومركب

Jie Lei; Licheng Yu; Mohit Bansal; Tamara L. Berg
TVQA: الإجابة على الأسئلة المرتبطة بالفيديو بشكل محلي ومركب
الملخص

في السنوات الأخيرة، شهدنا اهتمامًا متزايدًا بمهام الإجابة على الأسئلة المستندة إلى الصور (QA). ومع ذلك، بسبب قيود البيانات، كان هناك عمل أقل بكثير في مجال الإجابة على الأسئلة المستندة إلى الفيديو (Video-based QA). في هذا البحث، نقدم TVQA، وهو مجموعة بيانات كبيرة للإجابة على الأسئلة المستندة إلى الفيديو تعتمد على 6 برامج تلفزيونية شهيرة. تتكون TVQA من 152,545 زوج سؤال وجواب من 21,793 مقطع فيديو، يغطي أكثر من 460 ساعة من الفيديو. تم تصميم الأسئلة لتكون تركيبية بطبيعتها، مما يتطلب من النظم تحديد اللحظات ذات الصلة داخل المقطع، فهم الحوار القائم على الترجمة باللغة العربية (Subtitle-based Dialogue)، وتحديد المفاهيم البصرية ذات الصلة. نقدم تحليلات لهذه المجموعة البيانات الجديدة بالإضافة إلى عدة نقاط بداية وأطر شبكة عصبية متعددة التدفق يمكن تدريبها من البداية إلى النهاية لمهام TVQA. المجموعة متاحة للعامة على الرابط http://tvqa.cs.unc.edu.