HyperAIHyperAI

Command Palette

Search for a command to run...

الشبكات الشرطية الهرمية للإجابة على الأسئلة في الفيديو

Thao Minh Le Vuong Le Svetha Venkatesh Truyen Tran

الملخص

إن الإجابة على الأسئلة المتعلقة بالفيديوهات (VideoQA) يُعدّ تحديًا كبيرًا نظرًا لاحتياجاته لقدرة نمذجة قادرة على استخلاص الصور البصرية الديناميكية والعلاقات البعيدة، وربطها بمفاهيم لغوية. نُقدّم وحدة عصبية قابلة لإعادة الاستخدام وعامة تُسمّى "شبكة العلاقات الشرطية" (Conditional Relation Network - CRN)، والتي تُستخدم كوحدة بناء لبناء هياكل أكثر تعقيدًا لتمثيل المعلومات والاستنتاجات من خلال الفيديوهات. تأخذ CRN كمدخلات مجموعة من الكائنات ذات الأبعاد التنسورية وخاصية توجيهية (conditioning feature)، وتحسب مجموعة من الكائنات الناتجة المشفرة. أصبح بناء النماذج عملية بسيطة تتم من خلال تكرار وتنظيم وتراكب هذه الوحدات القابلة لإعادة الاستخدام، لتلبية متطلبات مختلف الوسائط والمعلومات السياقية. وبهذا التصميم، تدعم النموذج الاستنتاجات من الرتبة العالية والعلاقات المتعددة الخطوات. تتمثل البنية الناتجة لتطبيق VideoQA في هرمٍ من CRN، حيث تمثل فروعه مقاطع فيديو فرعية أو مقاطع قصيرة، وكلها تشارك نفس السؤال كشرط سياقي مشترك. وقد أظهرت تقييماتنا على مجموعات بيانات معروفة نتائج جديدة تُعدّ الأفضل في مجالها (SoTA)، مما يُثبت الأثر الكبير لبناء وحدة استنتاج عامة في مجالات معقدة مثل VideoQA.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp