HyperAIHyperAI
منذ 2 أشهر

TGIF-QA: نحو الاستدلال المكاني-الزماني في إجابة الأسئلة البصرية

Yunseok Jang; Yale Song; Youngjae Yu; Youngjin Kim; Gunhee Kim
TGIF-QA: نحو الاستدلال المكاني-الزماني في إجابة الأسئلة البصرية
الملخص

ظهر فهم الرؤية واللغة كموضوع يخضع لدراسة مكثفة في مجال الذكاء الاصطناعي. من بين العديد من المهام في هذا الخط من البحث، كان الإجابة على الأسئلة المرئية (VQA) أحد النجاحات الأكثر بروزًا، حيث تتمثل الغاية في تعلم نموذج يفهم المحتوى البصري بتفاصيل مستويات المناطق ويجد علاقاته بالأسئلة والأجوبة في صورة اللغة الطبيعية. رغم التقدم السريع خلال السنوات القليلة الماضية، ركز معظم الأعمال الحالية في VQA بشكل أساسي على الصور. في هذه الورقة البحثية، نركز على توسيع نطاق VQA إلى مجال الفيديو ونقدم إسهامات مهمة للآداب العلمية بثلاث طرق رئيسية. أولاً، نقترح ثلاث مهام جديدة مصممة خصيصًا لـ VQA الفيديو، والتي تتطلب الاستدلال المكاني-الزماني من الفيديوهات للإجابة على الأسئلة بشكل صحيح. ثانياً، نقدم مجموعة بيانات جديدة ذات نطاق كبير لـ VQA الفيديو تُسمى TGIF-QA (TGIF-أسئلة وإجابات)، والتي تمتد إلى الأعمال الحالية في VQA مع مهامنا الجديدة. ثالثاً، نقترح نهجًا يستند إلى LSTM المزدوج مع انتباه مكاني وزماني، ونوضح فعاليته عن طريق التقييمات التجريبية مقارنة بالتقنيات التقليدية لـ VQA.