HyperAIHyperAI

Command Palette

Search for a command to run...

الرسوم البيانية المكانية الزمنية (2.5+1)D للسيناريوهات في الإجابة على الأسئلة المتعلقة بالفيديو

Anoop Cherian Chiori Hori Tim K. Marks Jonathan Le Roux

الملخص

تُستخدم نماذج رسم الرسوم البيانية المكانية-الزمنية في المهام الاستدلالية القائمة على الفيديو، مثل إجابة الأسئلة على الفيديو (QA)، عادةً لبناء هذه الرسوم البيانية لكل إطار من إطارات الفيديو. وغالبًا ما تتجاهل هذه النماذج حقيقة أن الفيديوهات هي في الأساس تسلسل من الرؤى ثنائية الأبعاد للحوادث التي تحدث في فضاء ثلاثي الأبعاد، وبالتالي يمكن نقل المعاني الخاصة بالمشهد ثلاثي الأبعاد من إطار إلى آخر. بالاستفادة من هذا التفكير، نقترح تمثيلًا للرسم البياني المكاني-الزمني (2.5+1)D لتحسين التقاط تدفقات المعلومات المكانية-الزمنية داخل الفيديوهات. وبشكل محدد، نقوم أولاً بإنشاء رسم بياني مكاني-زمني (2.5D) (أي رسم بياني وهمي ثلاثي الأبعاد) من خلال تحويل كل إطار ثنائي الأبعاد ليحتوي على بنية ثلاثية أبعاد مُستنتجة باستخدام وحدة تحويل ثنائية الأبعاد إلى ثلاثية أبعاد جاهزة للاستخدام، ثم نقوم بتسجيل إطارات الفيديو داخل فضاء مكاني-زمني مشترك (2.5+1)D، ونُرَكِّز كل رسم بياني ثنائي الأبعاد ضمن هذا الفضاء. ثم يتم تقسيم هذا الرسم البياني (2.5+1)D إلى جزأين: رسم بياني ثابت ورسم بياني ديناميكي، حسب ما إذا كانت الكائنات داخلهما تتحرك عادةً في العالم. وتُغْنَى العقد في الرسم البياني الديناميكي بخصائص حركية تعكس تفاعلات هذه العقد مع العقد الأخرى. وبعدها، وفي سياق مهمة إجابة الأسئلة على الفيديو، نقدّم نموذجًا جديدًا يستند إلى المحولات (Transformer) يُدمج الرسم البياني (2.5+1)D في فضاء مكاني-زمني هرمي مخفي، حيث تُلتقط الأجزاء الفرعية والتفاعلات بينها بدرجات متنوعة من التفصيل. ولإثبات فعالية نهجنا، نُقدّم تجارب على مجموعتي بيانات NExT-QA وAVSD-QA. وتُظهر النتائج أن تمثيلنا (2.5+1)D يؤدي إلى تدريب واستنتاج أسرع، في حين يُظهر نموذجنا الهرمي أداءً متفوقًا على أفضل النماذج الحالية في مهمة إجابة الأسئلة على الفيديو.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
الرسوم البيانية المكانية الزمنية (2.5+1)D للسيناريوهات في الإجابة على الأسئلة المتعلقة بالفيديو | مستندات | HyperAI