HyperAIHyperAI

Command Palette

Search for a command to run...

الفيديو كهيكل رسم بياني شرطي للإجابة متعددة التفاصيل على الأسئلة

Junbin Xiao Angela Yao Zhiyuan Liu Yicong Li Wei Ji Tat-Seng Chua

الملخص

إجابة الأسئلة المتعلقة بالفيديو تتطلب من النماذج فهم وتفسير بيانات الفيديو المعقدة والبيانات اللغوية بشكل صحيح لاستخلاص الإجابات بدقة. ركزت الجهود الحالية على تصميم تفاعلات معقدة بين الوسائط المختلفة لدمج المعلومات من الوسائط المتنوعة، مع ترميز الفيديو والسؤال بشكل شامل كسلسلة من الإطارات والكلمات. وعلى الرغم من نجاحها، فإن هذه الأساليب تدور بشكل أساسي حول الطبيعة التسلسلية لمحتوى الفيديو والسؤال، مما يوفر تفسيرًا محدودًا للمشكلة، ويخلو من الوضوح التفسيري. في هذا العمل، نحن ندعي أن الفيديو، رغم عرضه كسلسلة من الإطارات، فإن العناصر البصرية (مثل الكائنات، والإجراءات، والأنشطة، والأحداث) ليست تسلسلية، بل هي هرمية من حيث المعنى في الفضاء المعنوي. لمواكبة الطبيعة متعددة المقاييس للمفاهيم اللغوية في الاستفسارات النصية، نقترح تمثيل الفيديو كهيكل رسم بياني تسلسلي مشروط، يربط بين الحقائق البصرية المختلفة بمقاييس متنوعة بطريقة متدرجة، بمرافقة إشارات نصية متناظرة. وعلى الرغم من بساطة هذا النموذج، تُظهر تجاربنا الواسعة تفوقه مقارنةً بالأساليب السابقة، مع تحسين واضح في الأداء، بالإضافة إلى تعميم أفضل عبر أنواع مختلفة من الأسئلة. كما تُظهر التحليلات الإضافية موثوقية النموذج، إذ تُظهر أدلة بصرية-نصية ذات معنى تدعم الإجابات المتنبأ بها.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp