HyperAIHyperAI

Command Palette

Search for a command to run...

IntentQA: استنتاج نية الفيديو الشامل للسياق

Lifeng Fan Wenjuan Han Ping Wei Jiapeng Li

الملخص

في هذه الورقة البحثية، نقترح مهمة جديدة تُسمى IntentQA، وهي نوع خاص من مهام تحليل الفيديو (VideoQA) تركز على استنتاج نية الفيديو، والتي أصبحت ذات أهمية متزايدة للذكاء الاصطناعي بفضل ميزاتها في تمكين الوكلاء الذكية من القدرة على التفكير التأملي خارج مجرد التعرف على المحتوى في المهام اليومية. كما نقدم مجموعة بيانات كبيرة لمهام تحليل الفيديو الخاصة بهذه المهمة. ونُقدّم نموذجًا جديدًا يُسمى CaVIR (النموذج المُراعي للسياق في استنتاج نية الفيديو)، يتكوّن من: (أ) لغة استعلام الفيديو (VQL) لتحسين التمثيل عبر الوسائط للسياق المكاني، (ب) وحدة التعلّم التبايني (Contrastive Learning) للاستفادة من السياقات التباينية، و(ج) وحدة الاستدلال بالمنطق العام (Commonsense Reasoning) لدمج السياقات المبنية على المعرفة العامة. تُظهر التجارب الشاملة على هذه المهمة الصعبة فعالية كل مكوّن من مكونات النموذج، وتفوّق النموذج الكامل مقارنةً بالأساليب الأخرى، بالإضافة إلى قدرة النموذج على التعميم على مهام جديدة لتحليل الفيديو. تم إتاحة مجموعة البيانات والكود المصدر على الرابط التالي: https://github.com/JoseponLee/IntentQA.git


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
IntentQA: استنتاج نية الفيديو الشامل للسياق | مستندات | HyperAI