منذ 8 أشهر

الملخص

تُستخدم نماذج رسم الرسوم البيانية المكانية-الزمنية في المهام الاستدلالية القائمة على الفيديو، مثل إجابة الأسئلة على الفيديو (QA)، عادةً لبناء هذه الرسوم البيانية لكل إطار من إطارات الفيديو. وغالبًا ما تتجاهل هذه النماذج حقيقة أن الفيديوهات هي في الأساس تسلسل من الرؤى ثنائية الأبعاد للحوادث التي تحدث في فضاء ثلاثي الأبعاد، وبالتالي يمكن نقل المعاني الخاصة بالمشهد ثلاثي الأبعاد من إطار إلى آخر. بالاستفادة من هذا التفكير، نقترح تمثيلًا للرسم البياني المكاني-الزمني (2.5+1)D لتحسين التقاط تدفقات المعلومات المكانية-الزمنية داخل الفيديوهات. وبشكل محدد، نقوم أولاً بإنشاء رسم بياني مكاني-زمني (2.5D) (أي رسم بياني وهمي ثلاثي الأبعاد) من خلال تحويل كل إطار ثنائي الأبعاد ليحتوي على بنية ثلاثية أبعاد مُستنتجة باستخدام وحدة تحويل ثنائية الأبعاد إلى ثلاثية أبعاد جاهزة للاستخدام، ثم نقوم بتسجيل إطارات الفيديو داخل فضاء مكاني-زمني مشترك (2.5+1)D، ونُرَكِّز كل رسم بياني ثنائي الأبعاد ضمن هذا الفضاء. ثم يتم تقسيم هذا الرسم البياني (2.5+1)D إلى جزأين: رسم بياني ثابت ورسم بياني ديناميكي، حسب ما إذا كانت الكائنات داخلهما تتحرك عادةً في العالم. وتُغْنَى العقد في الرسم البياني الديناميكي بخصائص حركية تعكس تفاعلات هذه العقد مع العقد الأخرى. وبعدها، وفي سياق مهمة إجابة الأسئلة على الفيديو، نقدّم نموذجًا جديدًا يستند إلى المحولات (Transformer) يُدمج الرسم البياني (2.5+1)D في فضاء مكاني-زمني هرمي مخفي، حيث تُلتقط الأجزاء الفرعية والتفاعلات بينها بدرجات متنوعة من التفصيل. ولإثبات فعالية نهجنا، نُقدّم تجارب على مجموعتي بيانات NExT-QA وAVSD-QA. وتُظهر النتائج أن تمثيلنا (2.5+1)D يؤدي إلى تدريب واستنتاج أسرع، في حين يُظهر نموذجنا الهرمي أداءً متفوقًا على أفضل النماذج الحالية في مهمة إجابة الأسئلة على الفيديو.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Anoop Cherian Chiori Hori Tim K. Marks Jonathan Le Roux

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Anoop Cherian Chiori Hori Tim K. Marks Jonathan Le Roux

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Anoop Cherian Chiori Hori Tim K. Marks Jonathan Le Roux

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

الرسوم البيانية المكانية الزمنية (2.5+1)D للسيناريوهات في الإجابة على الأسئلة المتعلقة بالفيديو

Anoop Cherian Chiori Hori Tim K. Marks Jonathan Le Roux

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

الرسوم البيانية المكانية الزمنية (2.5+1)D للسيناريوهات في الإجابة على الأسئلة المتعلقة بالفيديو

Anoop Cherian Chiori Hori Tim K. Marks Jonathan Le Roux

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

الرسوم البيانية المكانية الزمنية (2.5+1)D للسيناريوهات في الإجابة على الأسئلة المتعلقة بالفيديو

Anoop Cherian Chiori Hori Tim K. Marks Jonathan Le Roux

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters