HyperAIHyperAI

Command Palette

Search for a command to run...

TVQA+: التأسيس المكاني-الزماني لأسئلة الفيديو وإجاباتها

Jie Lei Licheng Yu Tamara L. Berg Mohit Bansal

الملخص

نقدم مهمة الإجابة على الأسئلة في الفيديو المكاني-الزماني، والتي تتطلب من الأنظمة الذكية استرجاع اللحظات ذات الصلة بشكل متزامن وتحديد المفاهيم البصرية المرجعية (الأفراد والأشياء) للإجابة على أسئلة اللغة الطبيعية حول الفيديوهات. أولاً، نزيد من مجموعة بيانات TVQA بـ 310.8 ألف صندوق محيطي (bounding boxes)، مما يربط الأشياء المعروضة بالمفاهيم البصرية في الأسئلة والإجابات. نسمي هذا النسخة المضافة TVQA+. ثم نقترح نظام الإجابة المكاني-الزماني مع الدليل المرتبط بالسياق (Spatio-Temporal Answerer with Grounded Evidence - STAGE)، وهو إطار موحد يقوم بتثبيت الدليل في المجالين المكاني والزماني للإجابة على أسئلة الفيديو. تظهر التجارب والتحليلات الشاملة فعالية إطارنا وكيف يمكن أن تساهم التسميات الغنية في مجموعة بيانات TVQA+ الخاصة بنا في مهمة الإجابة على الأسئلة. بالإضافة إلى ذلك، من خلال تنفيذ هذه المهمة المشتركة، يكون نموذجنا قادرًا على إنتاج تصورات انتباه مكاني-زمانية مفيدة وقابلة للتفسير. يتم توفير مجموعة البيانات والشفرة البرمجية بشكل عام عبر الروابط التالية: http://tvqa.cs.unc.edu، https://github.com/jayleicn/TVQAplus


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp