HyperAIHyperAI
منذ 9 أيام

الشبكات الشرطية الهرمية للإجابة على الأسئلة في الفيديو

Thao Minh Le, Vuong Le, Svetha Venkatesh, Truyen Tran
الشبكات الشرطية الهرمية للإجابة على الأسئلة في الفيديو
الملخص

إن الإجابة على الأسئلة المتعلقة بالفيديوهات (VideoQA) يُعدّ تحديًا كبيرًا نظرًا لاحتياجاته لقدرة نمذجة قادرة على استخلاص الصور البصرية الديناميكية والعلاقات البعيدة، وربطها بمفاهيم لغوية. نُقدّم وحدة عصبية قابلة لإعادة الاستخدام وعامة تُسمّى "شبكة العلاقات الشرطية" (Conditional Relation Network - CRN)، والتي تُستخدم كوحدة بناء لبناء هياكل أكثر تعقيدًا لتمثيل المعلومات والاستنتاجات من خلال الفيديوهات. تأخذ CRN كمدخلات مجموعة من الكائنات ذات الأبعاد التنسورية وخاصية توجيهية (conditioning feature)، وتحسب مجموعة من الكائنات الناتجة المشفرة. أصبح بناء النماذج عملية بسيطة تتم من خلال تكرار وتنظيم وتراكب هذه الوحدات القابلة لإعادة الاستخدام، لتلبية متطلبات مختلف الوسائط والمعلومات السياقية. وبهذا التصميم، تدعم النموذج الاستنتاجات من الرتبة العالية والعلاقات المتعددة الخطوات. تتمثل البنية الناتجة لتطبيق VideoQA في هرمٍ من CRN، حيث تمثل فروعه مقاطع فيديو فرعية أو مقاطع قصيرة، وكلها تشارك نفس السؤال كشرط سياقي مشترك. وقد أظهرت تقييماتنا على مجموعات بيانات معروفة نتائج جديدة تُعدّ الأفضل في مجالها (SoTA)، مما يُثبت الأثر الكبير لبناء وحدة استنتاج عامة في مجالات معقدة مثل VideoQA.