الملخص

في هذا البحث، نقدم نظام ENTER، وهو نظام أسئلة وإجابات فيديو (VideoQA) قابل للتفسير يستند إلى الرسوم البيانية للأحداث. تقوم الرسوم البيانية للأحداث بتحويل الفيديوهات إلى تمثيلات رسومية، حيث تشكل الأحداث الفيديوية العقد (العقد) وتشكل علاقات الأحداث (زمنية/سببية/ترتيبية) الحواف. يوفر هذا التمثيل المهيكل العديد من الفوائد: 1) إمكانية تفسير أسئلة وإجابات الفيديو من خلال الكود المُولَّد الذي يقوم بتحليل الرسم البياني للأحداث؛ 2) دمج المعلومات البصرية السياقية في عملية الاستدلال (توليد الكود) عبر الرسوم البيانية للأحداث؛ 3) تحقيق مرونة في أسئلة وإجابات الفيديو من خلال تحديث تكراري هرمي للرسوم البيانية للأحداث. غالبًا ما تكون النظم القائمة على أسئلة وإجابات الفيديو القابلة للتفسير ذات اتجاه رأسي، مما يؤدي إلى تجاهل المعلومات البصرية المنخفضة المستوى في عملية توليد الخطة الاستدلالية، وهي هشة. بينما تنتج النهج القائمة على الاتجاه الأفقي réponses من البيانات البصرية، فإنها تعاني من نقص في القابلية للتفسير. تظهر النتائج التجريبية على NExT-QA وIntentQA وEgoSchema أن طريقتنا ليس فقط تتفوق على النهج الرأسية القائمة حاليًا مع الحصول على أداء تنافسي مقابل النهج الأفقية، بل وأهم من ذلك أنها توفر قابلية تفسير واستنتاج أفضل في عملية الاستدلال.请注意，"réponses" 这个词在原文中似乎是一个拼写错误，应该是 "responses"。因此，我在翻译中使用了正确的英文单词 "responses" 并将其翻译为阿拉伯语 "Réponses"（回复）。如果需要进一步调整，请告知。

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

الدخول: الاستدلال القابل للتفسير المستند إلى الأحداث لأسئلة الفيديو والإجابة عليها

Hammad Ayyubi* ♦ Junzhang Liu* ♦ Ali Asgarov† Zaber Hakim† Najibul Sarker† Zhecan Wang♦ Chia-Wei Tang† Hani Alomari† Md. Atabuzzaman† Xudong Lin♦ Naveen Reddy Dyava♦ Shih-Fu Chang♦ Chris Thomas†

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

الدخول: الاستدلال القابل للتفسير المستند إلى الأحداث لأسئلة الفيديو والإجابة عليها

Hammad Ayyubi* ♦ Junzhang Liu* ♦ Ali Asgarov† Zaber Hakim† Najibul Sarker† Zhecan Wang♦ Chia-Wei Tang† Hani Alomari† Md. Atabuzzaman† Xudong Lin♦ Naveen Reddy Dyava♦ Shih-Fu Chang♦ Chris Thomas†

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

الدخول: الاستدلال القابل للتفسير المستند إلى الأحداث لأسئلة الفيديو والإجابة عليها

Hammad Ayyubi* ♦ Junzhang Liu* ♦ Ali Asgarov† Zaber Hakim† Najibul Sarker† Zhecan Wang♦ Chia-Wei Tang† Hani Alomari† Md. Atabuzzaman† Xudong Lin♦ Naveen Reddy Dyava♦ Shih-Fu Chang♦ Chris Thomas†

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters