HyperAIHyperAI

Command Palette

Search for a command to run...

الدخول: الاستدلال القابل للتفسير المستند إلى الأحداث لأسئلة الفيديو والإجابة عليها

Hammad Ayyubi* ♦ Junzhang Liu* ♦ Ali Asgarov† Zaber Hakim† Najibul Sarker† Zhecan Wang♦ Chia-Wei Tang† Hani Alomari† Md. Atabuzzaman† Xudong Lin♦ Naveen Reddy Dyava♦ Shih-Fu Chang♦ Chris Thomas†

الملخص

في هذا البحث، نقدم نظام ENTER، وهو نظام أسئلة وإجابات فيديو (VideoQA) قابل للتفسير يستند إلى الرسوم البيانية للأحداث. تقوم الرسوم البيانية للأحداث بتحويل الفيديوهات إلى تمثيلات رسومية، حيث تشكل الأحداث الفيديوية العقد (العقد) وتشكل علاقات الأحداث (زمنية/سببية/ترتيبية) الحواف. يوفر هذا التمثيل المهيكل العديد من الفوائد: 1) إمكانية تفسير أسئلة وإجابات الفيديو من خلال الكود المُولَّد الذي يقوم بتحليل الرسم البياني للأحداث؛ 2) دمج المعلومات البصرية السياقية في عملية الاستدلال (توليد الكود) عبر الرسوم البيانية للأحداث؛ 3) تحقيق مرونة في أسئلة وإجابات الفيديو من خلال تحديث تكراري هرمي للرسوم البيانية للأحداث. غالبًا ما تكون النظم القائمة على أسئلة وإجابات الفيديو القابلة للتفسير ذات اتجاه رأسي، مما يؤدي إلى تجاهل المعلومات البصرية المنخفضة المستوى في عملية توليد الخطة الاستدلالية، وهي هشة. بينما تنتج النهج القائمة على الاتجاه الأفقي réponses من البيانات البصرية، فإنها تعاني من نقص في القابلية للتفسير. تظهر النتائج التجريبية على NExT-QA وIntentQA وEgoSchema أن طريقتنا ليس فقط تتفوق على النهج الرأسية القائمة حاليًا مع الحصول على أداء تنافسي مقابل النهج الأفقية، بل وأهم من ذلك أنها توفر قابلية تفسير واستنتاج أفضل في عملية الاستدلال.请注意,"réponses" 这个词在原文中似乎是一个拼写错误,应该是 "responses"。因此,我在翻译中使用了正确的英文单词 "responses" 并将其翻译为阿拉伯语 "Réponses"(回复)。如果需要进一步调整,请告知。


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
الدخول: الاستدلال القابل للتفسير المستند إلى الأحداث لأسئلة الفيديو والإجابة عليها | مستندات | HyperAI