HyperAIHyperAI
منذ شهر واحد

TVQA+: التأسيس المكاني-الزماني لأسئلة الفيديو وإجاباتها

Jie Lei; Licheng Yu; Tamara L. Berg; Mohit Bansal
TVQA+: التأسيس المكاني-الزماني لأسئلة الفيديو وإجاباتها
الملخص

نقدم مهمة الإجابة على الأسئلة في الفيديو المكاني-الزماني، والتي تتطلب من الأنظمة الذكية استرجاع اللحظات ذات الصلة بشكل متزامن وتحديد المفاهيم البصرية المرجعية (الأفراد والأشياء) للإجابة على أسئلة اللغة الطبيعية حول الفيديوهات. أولاً، نزيد من مجموعة بيانات TVQA بـ 310.8 ألف صندوق محيطي (bounding boxes)، مما يربط الأشياء المعروضة بالمفاهيم البصرية في الأسئلة والإجابات. نسمي هذا النسخة المضافة TVQA+. ثم نقترح نظام الإجابة المكاني-الزماني مع الدليل المرتبط بالسياق (Spatio-Temporal Answerer with Grounded Evidence - STAGE)، وهو إطار موحد يقوم بتثبيت الدليل في المجالين المكاني والزماني للإجابة على أسئلة الفيديو. تظهر التجارب والتحليلات الشاملة فعالية إطارنا وكيف يمكن أن تساهم التسميات الغنية في مجموعة بيانات TVQA+ الخاصة بنا في مهمة الإجابة على الأسئلة. بالإضافة إلى ذلك، من خلال تنفيذ هذه المهمة المشتركة، يكون نموذجنا قادرًا على إنتاج تصورات انتباه مكاني-زمانية مفيدة وقابلة للتفسير. يتم توفير مجموعة البيانات والشفرة البرمجية بشكل عام عبر الروابط التالية: http://tvqa.cs.unc.edu، https://github.com/jayleicn/TVQAplus

TVQA+: التأسيس المكاني-الزماني لأسئلة الفيديو وإجاباتها | أحدث الأوراق البحثية | HyperAI